칭화대학교-앤트 연합팀, 강화학습 효율 177% 향상시킨 ‘AReaL-boba²’ 오픈소스 공개

칭화대학교-앤트 연합팀, 강화학습 효율 177% 향상시킨 ‘AReaL-boba²’ 오픈소스 공개

2025년 06월 10일

강화학습(Reinforcement Learning) 분야에 새로운 혁신이 나타났다. 칭화대학교 교차정보학원과 앤트 기술연구원의 연합팀이 전면 비동기 강화학습 훈련 시스템 ‘AReaL-boba²’를 오픈소스로 공개했다고 발표했다. 이 시스템은 기존 대비 177%의 ... 더 읽기

알리바바 Qwen, 강화학습 훈련 시 20%의 토큰 만으로 더 나은 성능 달성

알리바바 Qwen, 강화학습 훈련 시 20%의 토큰 만으로 더 나은 성능 달성

2025년 06월 09일

중국 알리바바의 Qwen팀과 칭화대학교 LeapLab이 공동으로 대형언어모델(LLM) 강화학습 분야에서 기존 상식을 뒤바꾸는 연구 결과를 발표했다. 이들은 강화학습 훈련 시 전체 토큰의 20%에 해당하는 핵심 토큰만을 ... 더 읽기