중국 AI 스타트업 GigaAI(极佳视界, 극가시계)가 7월 4일 획기적인 구현형 기초 모델 GigaBrain-0 Preview를 발표했다. 이 모델은 90% 이상의 훈련 데이터를 자체 개발한 월드 모델 플랫폼에서 생성하고, 실제 로봇 데이터는 10% 미만만 사용한 것이 특징이다. 이는 세계 최초로 월드 모델 생성 데이터를 주로 활용한 엔드투엔드 VLA(Vision-Language-Action) 구현형 기초 모델로 평가 받고 있다.
GigaAI는 2023년 설립된 공간 지능 전문 기업으로, 비디오 생성을 4D 월드 모델로 발전시켜 AI 대형 모델이 4D 공간에 대한 이해, 생성, 상식, 추론 능력을 갖추도록 하는 것을 목표로 한다. 이를 통해 4D 공간에서의 상호작용과 행동 구현을 실현하고자 한다.
GigaAI, 청화대 출신 창업팀이 이끄는 혁신적 접근
GigaAI의 창립자 겸 CEO 황관(黄冠)은 칭화대학교 AI 방향 박사로, 10년 이상의 AI 기술 및 산업 경험을 보유하고 있다. 그는 마이크로소프트, 삼성, 호라이즌 등에서 알고리즘 업무를 담당했으며, AI 및 자율주행 분야에서 연속 창업 경험을 가지고 있다.
회사는 곧 구현형 지능 방향의 월드 모델 플랫폼 Preview 버전도 출시할 예정이라고 밝혔다. 이는 로봇 AI 분야에서 시뮬레이션 기반 학습의 새로운 패러다임을 제시할 것으로 기대된다.
GigaBrain-0의 혁신적 아키텍처
GigaBrain-0 Preview의 실행 과정은 다음과 같은 4단계로 구성된다.
입력 단계에서는 RGB 이미지와 깊이 정보를 결합하여 인코딩함으로써 모델의 3D 공간 구조 이해 능력과 복잡한 장면의 인식 표현 능력을 향상 시킨다.
출력 단계에서는 시스템이 다양한 인식 모듈의 중간 출력(2D 박스, 3D 박스, 6DoF 그립 포인트, 말단 실행기 궤적 등)을 다중 모달 감독 신호로 활용하여 의사결정 과정의 정확성과 견고성을 강화한다.

언어 작업 분해를 위한 사고 사슬(Chain-of-Thought, CoT) 메커니즘을 도입하여 상위 수준의 사용자 지시를 단계적으로 하위 수준의 실행 가능한 프롬프트로 분석한다. 이를 통해 작업 논리의 구조화된 분해를 실현한다. 동시에 전단계 인식 모듈의 출력 결과가 CoT에 공간 추론에 필요한 의미적 지원을 제공한다.
하위 수준 실행 프롬프트는 해당하는 액션 전문가 모듈을 활성화하고, 노이즈 제거 디코딩 메커니즘을 통해 로봇이 실행할 수 있는 동작 시퀀스를 생성하여 인식에서 동작까지의 완전한 제어를 실현한다.
실생활 가사 업무의 완벽한 수행
GigaBrain-0 Preview는 다양한 복잡한 작업에서 우수한 성능을 보여주고 있다. 특히 가정용 로봇의 핵심 기능인 가사 업무 수행에서 보여주는 성능은 매우 인상적이다.
옷 접기 작업에서 GigaBrain-0은 임의의 형태와 다양한 스타일의 옷을 부드럽고 정밀하게 자동으로 접을 수 있을 뿐만 아니라, 접는 과정에서 중간 상태를 능동적으로 사고 하여 접는 방식과 평평함을 자동으로 수정할 수 있다. 이는 마치 숙련된 가사 도우미처럼 자연스럽고 효율적인 동작을 보여준다.
식탁 정리 작업에서는 더욱 놀라운 능력을 보여준다. 물품이 무질서하게 놓인 식탁을 마주했을 때, 모델은 자주적으로 최적의 전략을 추론한다. 먼저 식기를 어떻게 배치할지 사고한 후, 양팔을 협조하여 쓰레기 청소 작업을 완성한다. 심지어 사람이 다시 무작위로 쓰레기를 버려도, 모델은 신속하게 인식하고 능동적으로 전략을 조정하여 식탁이 깨끗해질 때까지 반복적으로 청소한다.
정밀한 양팔 협조 및 음성 상호작용
음료 따르기와 같은 양팔 협조가 필요한 장기 작업에서 GigaBrain VLA 모델은 장기 작업의 하위 작업 자동 분할과 모델 지시 준수를 실현했다. 또한 음료가 쏟아지지 않도록 동작에 부드러움 제약을 가했다. 이는 로봇이 인간과 같은 섬세함과 주의력을 가지고 작업을 수행할 수 있음을 보여준다.
특히 주목할 점은 자연 음성 상호작용 지원이다. 사용자는 단 한 마디로 식기 배치 작업을 촉발할 수 있다. 이는 미래의 가정용 로봇이 가족 구성원과 자연스럽게 소통하며 다양한 가사 업무를 수행할 수 있는 가능성을 제시한다.
시뮬레이션 2.0 기반 혁신적 데이터 생성
GigaBrain-0의 가장 혁신적인 측면은 훈련 데이터의 90% 이상을 시뮬레이션을 통해 생성한다는 점이다. 실제 로봇을 통한 데이터 수집과 비교했을 때, 월드 모델 기반 시뮬레이션 2.0은 데이터 획득 효율성에서 명백한 우위를 보여준다. 그 생성 효율성은 실제 로봇 수집보다 10-100배 이상 높을 수 있다.
이러한 효율성 향상은 데이터 수집의 시간 비용을 낮출 뿐만 아니라, 대규모이고 빠른 반복의 데이터 생성 및 모델 반복을 가능하게 한다. 이는 물리 세계 범용 지능의 훈련과 테스트에 중요한 지원을 제공한다.
구현형 AI의 미래를 여는 새로운 패러다임
GigaAI의 GigaBrain-0 발표는 구현형 AI 분야에서 중요한 이정표로 평가 받고 있다. 기존의 구현형 AI 모델들이 대부분 실제 로봇 데이터에 의존해 훈련되었던 것과 달리, 시뮬레이션 데이터를 주로 활용한 접근법은 개발 비용과 시간을 크게 단축 시킬 수 있는 잠재력을 가지고 있다.
특히 월드 모델 플랫폼을 통한 데이터 생성은 다양한 시나리오와 예외 상황을 대량으로 생성할 수 있어, 실제 환경에서 마주할 수 있는 복잡한 상황들에 대한 로봇의 대응 능력을 향상 시킬 수 있다. 이는 가정용 로봇이 실제 생활 환경에서 안정적으로 작동할 수 있는 기반을 마련한다.
GigaAI의 이번 발표는 중국 AI 기업들이 구현형 AI 분야에서도 세계적 수준의 기술력을 확보하고 있음을 보여주는 사례로, 향후 글로벌 로봇 AI 시장에서 중국 기업들의 경쟁력을 크게 향상 시킬 것으로 전망된다.