알리바바의 통의실험실(通义实验室)이 다단계 정보 검색과 연속적인 추론 작업을 수행할 수 있는 자율 정보 검색 AI 에이전트 ‘WebDancer’를 발표했다. 이 시스템은 GPT-4o를 뛰어넘는 성능을 보여주며, 오픈소스 모델로도 Deep Research 시스템을 구현할 수 있는 가능성을 제시했다.


WebDancer, 복잡한 정보 검색의 새로운 패러다임
정보 폭증 시대에 전통적인 검색 엔진은 사용자의 심층적이고 다단계적인 정보 획득 요구를 충족하기 어려워졌다. 의학 연구부터 과학기술 혁신, 비즈니스 의사결정부터 학술 탐구까지, 복잡한 문제 해결에는 깊이 있는 정보 발굴과 다단계 추론 능력이 필요하다.
WebDancer는 이러한 요구에 대응하기 위해 개발된 자율 정보 검색 AI 에이전트로, 시스템적인 훈련 패러다임을 통해 데이터 구축부터 알고리즘 설계까지 전체 프로세스를 포괄한다. 이는 장기적인 정보 검색 능력을 갖춘 AI 에이전트 구축을 위한 명확한 경로를 제공한다.
훈련 데이터 부족 문제의 혁신적 해결
자율 정보 검색 분야에서 고품질 훈련 데이터는 매우 중요하지만, 기존 데이터셋인 2WIKI, HotpotQA 등은 대부분 표면적인 문제들로 구성되어 복잡한 다단계 추론 훈련 요구를 지원하기 어려웠다.
WebDancer는 데이터 부족 문제를 해결하기 위해 두 가지 혁신적인 데이터 합성 방법을 제안했다:
CrawlQA 방법론은 인간의 브라우징 행동을 시뮬레이션하여 arXiv, GitHub, Wikipedia 등 권위 있는 웹사이트에서 웹페이지 정보를 크롤링하고 복잡한 질문-답변 쌍을 생성한다. 이를 통해 데이터의 다양성과 진실성을 보장한다.
E2HQA 전략은 ‘간단한 것부터 어려운 것까지’의 접근 방식을 채택하여 간단한 문제부터 시작해 점진적으로 문제의 복잡도를 높여 다단계 추론 질문-답변 쌍을 구축한다. 이는 AI 에이전트 능력의 점진적 진화를 촉진한다.

ReAct 프레임워크와 사고 체인 증류
WebDancer의 기반이 되는 ReAct 프레임워크는 다수의 사고-행동-관찰(Thought-Action-Observation) 순환을 포함한다. AI 에이전트는 자유형식의 사고(Thought)를 생성하고, 환경 도구와 상호작용하기 위한 구조화된 행동(Action)을 취하며, 환경으로부터 피드백(Observation)을 받는다.
사고 체인(Chain-of-Thought, CoT)은 AI 에이전트 실행에 있어 매우 중요한 요소로, 고수준 워크플로우 계획, 자기 성찰, 정보 추출, 행동 계획을 가능하게 한다. WebDancer는 짧은 CoT와 긴 CoT 구축 방법을 모두 탐구했다.
짧은 CoT의 경우 GPT-4o와 같은 강력한 모델을 직접 사용하여 ReAct 프레임워크 하에서 궤적을 생성한다. 긴 CoT의 경우에는 추론 모델(LRM)에 순차적으로 과거 행동과 관찰을 제공하여 다음 단계 행동을 자율적으로 결정하도록 하고, 중간 추론 과정을 현재의 Thought로 기록한다.
엄격한 데이터 필터링과 품질 향상
WebDancer는 데이터 품질을 보장하기 위해 다단계 데이터 필터링 전략을 채택했다. 유효성 제어 단계에서는 지시사항에 부합하지 않는 데이터를 제거하고, 정확성 검증 단계에서는 결과가 올바른 데이터만을 보존한다. 품질 평가 단계에서는 규칙을 통해 심각한 반복이나 사고 중복이 나타나는 데이터를 필터링하여 데이터의 다양성과 논리성을 보장한다.
이러한 엄격한 필터링 전략은 훈련 데이터의 고품질을 보장하며, AI 에이전트의 효율적인 학습을 위한 토대를 제공한다.
개방형 네트워크 환경 훈련 문제 해결
개방형 환경에서 AI 에이전트를 훈련하는 것은 매우 도전적인 작업이다. 네트워크 환경의 동적 변화와 부분적 관찰 가능성으로 인해 AI 에이전트는 강력한 적응 능력과 일반화 능력을 갖춰야 한다.
WebDancer는 이러한 도전에 대응하기 위해 2단계 훈련 전략을 채택했다. 첫 번째 단계인 지도 미세조정(SFT)에서는 고품질 궤적 데이터를 기반으로 미세조정을 수행하여 AI 에이전트가 복잡한 환경에서 추론과 의사결정 능력을 빠르게 습득하도록 한다.
두 번째 단계인 강화학습(RL)에서는 환경과의 상호작용을 통해 AI 에이전트가 지속적으로 시행착오를 겪으며 복잡하고 변화하는 환경에서 최적의 의사결정을 내리는 방법을 학습한다. WebDancer는 고급 DAPO 알고리즘을 채택하여 충분히 활용되지 않은 데이터 쌍을 동적으로 샘플링하고 데이터 효율성과 정책의 견고성을 향상시킨다.

벤치마크 테스트에서 뛰어난 성능 입증
WebDancer의 혁신적 전략은 여러 정보 검색 벤치마크 테스트에서 충분히 검증되었다. GAIA 데이터셋에서는 복잡한 정보 검색 작업에서 일반 인공지능 어시스턴트의 성능을 평가하는데, WebDancer는 다양한 난이도의 작업에서 모두 높은 점수를 획득하여 강력한 일반화 능력을 보여주었다.
WebWalkerQA 데이터셋에서는 심층 네트워크 정보 검색에 중점을 두는데, WebDancer는 이 데이터셋에서도 뛰어난 성능을 보였으며, 특히 중간 난이도와 고난이도 작업에서 성능 향상이 더욱 두드러졌다.

성능이 가장 우수한 모델은 GAIA 벤치마크 테스트에서 61.1%의 Pass@3 점수를 달성했고, WebWalkerQA 벤치마크 테스트에서는 54.6%의 Pass@3 점수를 기록했다. 더욱 도전적인 BrowseComp(영어)와 BrowseComp-zh(중국어) 데이터셋에서도 WebDancer는 강력한 성능을 보여주어 복잡한 정보 검색 작업 처리에서의 견고성과 효과성을 더욱 입증했다.

AI 에이전트 모델 훈련에 대한 심층 분석
실험 분석을 통해 몇 가지 중요한 발견 사항이 도출되었다. 강화학습(RL)은 일반적인 지시 모델(Instruction Model)의 성능 향상에 현저한 효과를 보이며, 특히 Pass@1 샘플링 정확도 향상에서 뛰어난 효과를 나타낸다. 그 효과는 Pass@3에 근접할 정도이다. 그러나 QwQ와 같은 추론 중심 모델의 경우 RL의 향상 효과는 상대적으로 제한적이며, 주로 샘플링 결과의 안정성 측면에서 개선이 나타난다.

또한 AI 에이전트 데이터의 품질이 양보다 훨씬 중요하다는 것이 확인되었다. 연구팀은 QwQ 모델에서 약 6000개의 고품질의 긴 CoT 훈련 데이터만을 사용하여 GAIA 작업에서 우수한 효과를 달성했다. 이는 정교하게 구성된 사고 궤적이 복잡한 작업에서 대량이지만 조잡한 데이터보다 훨씬 높은 가치를 가진다는 것을 보여준다.


미래 전망과 발전 방향
현재 WebDancer는 두 가지 기본적인 정보 검색 도구 만을 통합하고 있지만, 향후 브라우저 모델링과 Python 샌드박스 환경과 같은 더 복잡한 도구들을 도입하여 AI 에이전트가 더욱 복잡한 작업을 수행할 수 있도록 할 계획이다.
현재의 실험은 주로 단답형 정보 검색 작업에 집중되어 있지만, 미래에는 WebDancer를 개방형 도메인의 장문 작성 작업으로 확장하여 AI 에이전트의 추론 능력과 생성 능력에 더 높은 요구사항을 제시할 예정이다.
이 연구는 강력한 AI 에이전트 능력을 갖춘 모델을 처음부터 훈련 시키는 것에 전념하며, 오픈소스 체계에서 효율적인 AI 에이전트 모델 아키텍처를 구축하는 방법을 중점 탐구한다. 이는 AI 에이전트 모델의 오픈소스 진행을 촉진할 뿐만 아니라 AI 에이전트가 개방형 환경에서 어떻게 능력을 창발하고 확장하는 지를 이해하는 데 기초적인 의미를 갖는다.
WebDancer의 등장은 오픈소스 모델에서도 고급 AI 에이전트 기능을 구현할 수 있다는 가능성을 보여주며, 향후 더 개방적인 환경에서 더 많은 도구와 결합하여 AI 에이전트 능력을 지속적으로 확장하고 통합함으로써 범용 AI 에이전트의 실용화와 발전을 추진할 것으로 기대된다.
[참고 기사]
https://www.qbitai.com/2025/06/291427.html