알리바바 Qwen, 강화학습 훈련 시 20%의 토큰 만으로 더 나은 성능 달성

알리바바 Qwen, 강화학습 훈련 시 20%의 토큰 만으로 더 나은 성능 달성

2025년 06월 09일

중국 알리바바의 Qwen팀과 칭화대학교 LeapLab이 공동으로 대형언어모델(LLM) 강화학습 분야에서 기존 상식을 뒤바꾸는 연구 결과를 발표했다. 이들은 강화학습 훈련 시 전체 토큰의 20%에 해당하는 핵심 토큰만을 ... 더 읽기