중국 베이징대학교 출신 연구진이 설립한 갈봇(Galbot, 銀河通用機器人)이 2025 베이징 BAAI Conference에서 세계 최초의 소매업 특화 VLA(Vision-Language-Action) 대모델 ‘GroceryVLA’와 오픈소스 휴머노이드 로봇 원격조작 시스템 ‘OpenWBT’를 동시 공개하며 구현체 지능 분야에 새로운 이정표를 세웠다.

세계 첫 소매업 특화 구현체 대모델 GroceryVLA 공개
6월 6일부터 7일까지 개최된 2025 베이징 BAAI Conference에서 갈봇(Galbot)의 구현체 대모델 로봇 Galbot G1이 메인 포럼 무대에 등장해 전 세계 관객들을 대상으로 라이브 시연을 펼쳤다. 이번 시연은 갈봇의 글로벌 라이브 데뷔 무대로, 전 과정에서 원격 조작 없이 사전 장면 데이터 수집도 없이 진행되었다.
베이징대학교 조교수이자 갈봇(Galbot) 창립자 겸 CTO인 왕허(王鹤) 박사의 음성 지시에 따라 로봇은 자율적이고 정확하게 지정된 위치로 이동한 후 선반에서 음료를 정확히 집어 올렸다. 이 모든 과정은 원격 조작 없이 자율 추론을 통해 이루어졌으며, 사전 장면 데이터 수집도 필요하지 않았다.
Galbot G1이 선보인 선반에서의 정밀한 상품 픽업 기술 뒤에는 은하통용 팀이 최신 개발한 엔드투엔드 구현체 대모델 GroceryVLA가 자리하고 있다. 이 시스템은 현장에 구성된 1:1 실제 마트 환경에서 복잡한 선반 물품 잡기부터 배송까지의 전체 프로세스를 자율적으로 수행할 수 있다.

GroceryVLA의 5대 핵심 능력
첫째, 강력한 적용성을 자랑한다. GroceryVLA는 엔드투엔드 모델 아키텍처를 채택하여 기존의 ‘비전+궤적 계획’ 방식을 뛰어넘었다. 수십 종의 SKU가 밀집 배치된 실제 선반 환경에서 상품을 자율 식별하고 픽업을 완료할 수 있다. 경로 계획 없이도 거의 틈이 없는 선반에서 안정적으로 작업할 수 있어 뛰어난 작업 효율성과 유연성을 보여준다.
둘째, 높은 범용성을 갖추고 있다. 모델은 각 상품 포장에 대해 개별적으로 매개변수를 조정할 필요 없이, 소프트 포장(봉지빵, 삶은 달걀 등), 하드박스, 플라스틱 병, 투명 젤리컵 등 다양한 형태의 상품을 정확히 집을 수 있다. 경질 포장이든 연질 물체든 정확히 집고 놓을 수 있어 전 품목 소매 시나리오 요구 사항을 충족한다.
셋째, 교차 시나리오 일반화 능력을 보유한다. 대규모 시뮬레이션 데이터와 다중 시나리오 훈련을 기반으로 모델은 완전히 새로운 환경에 직접 일반화할 수 있다. 이번 전시회는 첫 번째 원격지 실전 배치였음에도 조명 변화, 상품 무작위 배치 등 복잡한 조건에서도 안정적인 성능을 보였다.
넷째, 자율 의사 결정 능력을 갖추고 있다. 선반 위 여러 유사 상품에 직면했을 때, GroceryVLA는 작업 요구 사항을 기반으로 최적의 픽업 대상을 동적으로 판단할 수 있다. 기존의 정적 ‘지정 픽업’ 전략과는 차별화된다.
다섯째, 강력한 간섭 저항성을 보인다. 픽업 과정에서 모델은 실시간 폐루프 전략 조정 능력을 갖추고 있어, 상품이 이동되거나 추가, 밀려나는 등의 현장 인위적 간섭에 빠르게 대응할 수 있다. 심지어 픽업 동작 중 병이 넘어진 후 다시 세우는 것까지 가능해 진정한 상업적 활용 가치를 지닌 견고성과 실용성을 보여준다.

OpenWBT 오픈소스 시스템으로 휴머노이드 로봇 혁신 가속화
갈봇(Galbot)은 광범위한 소매 시나리오 안정적 상업화 추진과 함께 휴머노이드 로봇 기술 발전에도 지속적으로 주목하고 있다. 휴머노이드 로봇 분야에서 안정적이고 사용하기 쉬우며 전신 동작을 지원하는 원격 조작 시스템의 장기간 부재는 데이터 수집, 고품질 대모델 훈련 및 상업적 응용 착륙을 제약하는 핵심 병목이 되어왔다.
기존 시스템은 배치가 번거롭고 호환성이 떨어지며, 대부분 상반신 동작에 국한되어 실제 작업 시나리오에 필요한 완전한 인간 작업 공간을 커버하기 어려웠다. 이를 해결하기 위해 갈봇은 칭화대학교 이리(弋力) 조교수 팀과 공동으로 OpenWBT를 정식 발표했다. 이는 세계 최초의 완전 오픈소스, 다기종, 가상-실물 교차 휴머노이드 로봇 전신 원격조작 시스템이다.
OpenWBT는 혁신적으로 시간 단위의 빠른 배치를 실현했다. 사용자는 VR 헤드셋 하나와 일반 컴퓨터 한 대만으로 제로베이스에서 시스템 구축과 디버깅을 완료할 수 있어, 인간 수준의 조작 자유도를 빠르게 해제할 수 있다.

OpenWBT의 3대 핵심 기술 혁신
첫째, 빠른 배치 능력이다. 시스템 설계는 사용 편의성에 중점을 두어, 초보자도 VR 헤드셋 하나와 일반 컴퓨터 한 대만으로 최대 수 시간 내에 시스템 구축과 디버깅을 완료할 수 있다. 배치 문턱을 현저히 낮추는 동시에 실내외 다양한 환경에 쉽게 적응할 수 있다.
둘째, 다기종 호환성이다. 현재 Unitree G1, H1 등 여러 로봇을 지원하며, 서로 다른 자유도와 신장 규격을 포함하여 완전한 인간 작업 공간의 효율적 커버리지를 실현하고 다양한 로봇 하드웨어 요구 사항을 충족한다.
셋째, 가상-실물 원격조작의 유연한 지원이다. 실제 물리 로봇의 실시간 원격 제어를 지원할 뿐만 아니라 가상 시뮬레이션 환경 원격조작도 호환하여 대규모 데이터 수집과 시뮬레이션 데이터 기반 일반화 훈련을 편리하게 하고 모델의 효율적 반복을 촉진한다.
동작 제어 측면에서 OpenWBT는 로봇 운동을 ‘걷기, 쪼그려 앉기, 허리 굽히기, 닿기’ 등 기초 ‘원자 기술’로 세분화한다. 각 기술은 모두 실제 환경에서 안정적인 훈련과 검증을 거쳤다. 선진적인 기술 융합 알고리즘을 통해 시스템은 원자 동작을 자동으로 조합하여 연속적이고 복잡한 작업 시퀀스를 형성하고, 로봇의 ‘하늘을 만지고 땅에 닿는’ 전신 동작 협조 능력을 실현한다.


구현체 지능 생태계 구축과 상업화 전망
OpenWBT의 전면적인 오픈소스 발표는 갈봇이 개방적이고 공유하는 구현체 지능 생태계 구축에 전념하고 있음을 보여주는 중요한 성과다. 세계 최초의 표준화, 모듈화 된 휴머노이드 로봇 전신 원격조작 프레임워크로서 OpenWBT는 업계 기술 문턱을 크게 낮춰 과학연구기관과 산업계에 안정적이고 효율적인 훈련 및 테스트 플랫폼을 제공했다.
왕허 박사에 따르면, 갈봇의 로봇은 소매업 파트너들과의 광범위한 협력을 통해 연내 100개 매장 개설을 계획하고 있다. 세계 최초의 소매업 지향 엔드투엔드 구현체 VLA 대모델로서 GroceryVLA는 은하통용의 구현체 지능 분야에서의 중대한 기술 돌파를 의미한다.
이 프로젝트는 개방적이고 공유하는 커뮤니티 생태계 구축을 추진하여 더 많은 연구기관과 기업의 협력적 참여를 촉진하고, 구현체 지능 기술의 축적과 반복을 가속화하며, 휴머노이드 로봇이 실험실에서 실제 응용으로 나아가는 것을 돕고, 산업 혁신과 상생 발전을 실현한다.
미래를 전망하며, 갈봇은 계속해서 기술 혁신과 개방적 협력을 중시하는 발전 이념을 견지하여 휴머노이드 로봇이 ‘실험실 탐색’에서 ‘광범위한 응용’으로 나아가는 것을 이끌고, 로봇이 진정으로 ‘일하도록’ 하며, 구현체 대모델 기술과 산업 협력의 융합 응용을 심화하고, 더 많은 업계 시나리오의 지능화 업그레이드를 추진하여 더욱 지능적이고 효율적이며 지속 가능한 미래 사회 구축을 돕겠다고 밝혔다.