VIVO-저장대학교가 개발한 ‘LearnAct’, 단 1회 시연으로 AI를 학습시키는 혁신적인 프레임워크 등장

2025년 04월 30일

LearnAct

중국 IT 업계에 혁신적인 변화가 예상되는 가운데, 중국 IT 기술 분야에서 주목할 만한 연구 성과가 발표됐다. 중국 저장대학교(절강대학교)와 VIVO가 공동으로 개발한 LearnAct 프레임워크가 스마트폰 AI의 새로운 패러다임을 제시하며 업계의 관심을 끌고 있다.

LearnAct

스마트폰 GUI 에이전트의 새로운 돌파구

이번 연구의 핵심은 단 한 번의 시연만으로 AI가 복잡한 스마트폰 조작을 완전히 학습할 수 있다는 점이다. LearnAct 프레임워크는 기존의 대량 데이터 학습 방식을 벗어나, 사용자가 한 번만 시연해주면 AI가 해당 작업을 영구적으로 습득할 수 있는 혁신적인 시스템이다.

연구팀이 공개한 실험 결과에 따르면, LearnAct 프레임워크를 적용한 Gemini-1.5-Pro의 정확도는 19.3%에서 51.7%로 대폭 향상됐으며, 이는 198.9%의 상대적 성능 증가를 의미한다. 특히 복잡한 애플리케이션인 CityMapper에서는 14.1%에서 69.4%로, To-Do 애플리케이션에서는 17.4%에서 69.2%로 성능이 극적으로 개선됐다.

LearnGUI 벤치마크: 모바일 시연 학습의 새로운 기준

연구팀은 LearnAct 프레임워크와 함께 LearnGUI 벤치마크를 동시에 발표했다. 이는 모바일 환경에서 시연 학습을 위한 최초의 전문 평가 체계로, 2,252개의 오프라인 소수 샘플 작업과 101개의 온라인 작업을 포함하고 있으며, 모든 작업에는 고품질 인간 시연이 첨부되어 있다.

LearnGUI 벤치마크는 AMEX와 AndroidWorld를 기반으로 구축됐으며, 시연 수량이 에이전트 성능에 미치는 영향뿐만 아니라 시연 작업과 목표 작업 간의 다양한 유사성(명령 유사성, UI 유사성, 동작 유사성)이 학습 효과에 미치는 영향을 체계적으로 분석할 수 있도록 설계됐다.

다중 에이전트 아키텍처의 혁신

LearnAct 프레임워크의 핵심 혁신은 DemoParser, KnowSeeker, ActExecutor 세 가지 전문 에이전트로 구성된 다중 에이전트 아키텍처에 있다.

DemoParser 에이전트는 원시 인간 시연을 구조화된 시연 지식으로 변환하는 역할을 담당한다. 좌표 기반 클릭, 스와이프, 텍스트 입력 등의 원시 동작 시퀀스와 해당 스크린샷, 작업 명령을 입력으로 받아 시각-언어 모델을 활용해 의미적 설명이 포함된 동작 설명을 생성한다.

KnowSeeker 에이전트는 현재 작업 맥락과 가장 관련성이 높은 시연 지식을 식별하는 검색 구성요소 역할을 한다. DemoParser가 생성한 지식 데이터베이스와 ActExecutor 실행 환경 사이의 교량 역할을 하며, 특정 작업에 가장 적합한 지식을 효율적으로 접근하고 선택하는 데 특화되어 있다.

ActExecutor 에이전트는 검색된 시연 지식을 목표 환경에서 효과적인 조작으로 변환하는 실행 구성요소다. 사용자 명령, 실시간 그래픽 사용자 인터페이스 인식 정보, 시연 지식을 통합하여 롱테일 시나리오에서 스마트폰 인터페이스를 숙련되게 조작할 수 있다.

실제 환경에서의 뛰어난 성능

실제 환경에서의 온라인 평가에서 LearnAct 프레임워크는 탁월한 성능을 보여줬다. LearnGUI-Online 벤치마크에서 평가된 두 모델 모두 현저한 성능 향상을 보였으며, Qwen2-VL-7B는 9.9%에서 21.1%로(+11.2%), UI-TARS-7B-SFT는 18.1%에서 32.8%로(+14.7%) 성능이 개선됐다.

특히 ExpenseDeleteMultiple 작업에서의 비교 실험은 인상적인 결과를 보여준다. 기존 베이스라인 방법에서는 GUI 에이전트가 작업 실행 경로를 올바르게 계획하지 못해 실패로 끝나는 반면, LearnAct 프레임워크는 단 하나의 시연 사례만으로도 ExpenseDeleteMultiple 작업의 실행 패턴을 자동으로 식별하고 학습하여, 유사한 작업과 다른 UI 인터페이스에 직면했을 때도 성공적으로 조작 작업을 완료했다.

중국 IT 생태계에 미치는 영향

이번 연구는 중국 IT 기업들에게 새로운 기회를 제시한다. vivo와 같은 중국 스마트폰 제조업체들이 학계와의 협력을 통해 AI 기술 혁신을 주도하고 있다는 점에서 의미가 크다. LearnAct 프레임워크LearnGUI 벤치마크는 중국 IT 기업들이 글로벌 AI 기술 경쟁에서 우위를 점할 수 있는 핵심 기술로 평가받고 있다.

연구팀은 이러한 시연 기반 학습의 새로운 패러다임이 스마트폰 GUI 에이전트의 롱테일 문제에 대응하는 새로운 경로를 열었다고 강조했다. 모바일 기기가 현대 생활에서 광범위하게 활용되는 상황에서, 소량의 시연에서 효율적으로 학습할 수 있는 이 방법은 진정으로 지능적인 스마트폰 어시스턴트 구축을 위한 견고한 기반을 마련했으며, 우리를 SF 영화의 “J.A.R.V.I.S.”와 같은 지능적인 체험에 한 걸음 더 가까이 다가가게 했다.

[참고 기사]
https://www.qbitai.com/2025/05/279354.html

[논문 주소]
https://arxiv.org/abs/2504.13805

[프로젝트 주소]
https://lgy0404.github.io/LearnAct/

[GitHub]
https://github.com/lgy0404/LearnAct

[HuggingFace]
https://huggingface.co/datasets/lgy0404/LearnGUI