알리바바 DAMO, 체화지능 핵심 기술 3종 세트 오픈소스 발표

2025년 08월 21일

DAMO

알리바바 산하 연구원인 DAMO가 세계 로봇 대회에서 자체 개발한 체화지능(Embodied Intelligence) 핵심 기술 3종을 오픈소스로 공개하며 로봇 개발 생태계 확장에 나섰다. 이번에 공개된 기술은 VLA 모델인 RynnVLA-001-7B, 세계 이해 모델 RynnEC, 그리고 업계 최초로 공개되는 로봇 컨텍스트 프로토콜 RynnRCP이다.

DAMO

DAMO, 체화지능 개발의 새로운 패러다임 제시

현재 체화지능 분야는 급속한 발전을 보이고 있지만, 개발 프로세스의 파편화와 데이터, 모델, 로봇 본체 간의 호환성 문제라는 큰 도전에 직면해 있다. DAMO는 이러한 문제를 해결하기 위해 MCP(Model Context Protocol) 개념을 체화지능 분야에 도입하여 RCP(Robotics Context Protocol) 프로토콜을 최초로 제안하고 오픈소스로 공개했다.

RynnRCP는 완전한 로봇 서비스 프로토콜 및 프레임워크로, 센서 데이터 수집부터 모델 추론, 로봇 동작 실행에 이르는 전체 워크플로우를 통합한다. 사용자들이 각자의 시나리오에 따라 쉽게 적응할 수 있도록 돕는 것이 주요 목표다. 현재 RynnRCP는 Pi0, GR00T N1.5 등 인기 모델과 SO-100, SO-101 등 다양한 로봇팔을 지원하며, 지원 범위를 지속적으로 확장하고 있다.

RynnRCP의 핵심 구조와 기능

RynnRCP는 RCP 프레임워크와 RobotMotion이라는 두 개의 주요 모듈로 구성된다. RCP 프레임워크는 로봇 본체와 센서 간의 연결을 구축하고 표준화 된 기능 인터페이스를 제공하며, 서로 다른 전송 계층과 모델 서비스 간의 호환성을 실현한다.

RobotMotion은 체화 대형모델과 로봇 본체 제어 사이의 다리 역할을 한다. 이산적인 저주파 추론 명령을 실시간으로 고주파의 연속 제어 신호로 변환하여 부드럽고 물리적 제약에 부합하는 로봇 움직임을 구현한다. 또한 RobotMotion은 통합된 시뮬레이션-실기 제어 도구를 제공하여 개발자들의 빠른 적용을 지원하며, 작업 계획 및 제어, 시뮬레이션 동기화, 데이터 수집 및 재생, 궤적 시각화 등의 기능을 제공하여 정책 이전의 난이도를 낮춘다.

혁신적인 VLA 모델 RynnVLA-001

DAMO가 이번에 공개한 RynnVLA-001은 비디오 생성과 인체 궤적 사전 훈련을 기반으로 한 시각-언어-동작(Vision-Language-Action) 모델이다. 이 모델의 가장 큰 특징은 1인칭 시점의 비디오에서 인간의 조작 기술을 학습하여 이를 로봇팔의 조작에 암시적으로 이전할 수 있다는 점이다.

이러한 접근 방식을 통해 로봇팔의 조작이 더욱 연속적이고 부드러우며, 인간의 동작에 더 가깝게 만들어진다. 체화지능 분야에서 인간의 자연스러운 움직임을 로봇에 이전하는 것은 매우 중요한 기술적 과제였는데, RynnVLA-001은 이 문제에 대한 혁신적인 해결책을 제시한다.

물리 세계를 이해하는 RynnEC

세계 이해 모델인 RynnEC는 다중모달 대형언어모델을 체화 세계에 도입하여 대형모델에 물리 세계를 이해하는 능력을 부여한다. 이 모델은 위치, 기능, 수량 등 11개 차원에서 장면 내 객체를 종합적으로 분석하며, 복잡한 실내 환경에서 목표 객체를 정확하게 위치 파악하고 분할할 수 있다.

특히 주목할 점은 RynnEC가 3D 모델 없이도 비디오 시퀀스만으로 연속적인 공간 인식을 구축할 수 있다는 것이다. 또한 유연한 상호작용을 지원하여 체화지능 시스템의 환경 적응 능력을 크게 향상시킨다. 이는 로봇이 복잡한 실제 환경에서 작업을 수행할 때 필수적인 능력이다.

체화지능 생태계 구축을 위한 노력

DAMO는 체화지능 분야에 적극적으로 투자하고 있으며, 시스템과 모델 개발에 집중하면서 여러 당사자와 함께 산업 기반 인프라를 구축하고 있다. 이에는 하드웨어 본체와 표준 구성 요소 적응, 데이터 수집, 그리고 DAMO 개발자 매트릭스와 같은 기술 커뮤니티 등이 포함된다. 이러한 노력의 목적은 로봇의 산업 공간을 확장하고 시나리오 적용을 가속화하는 것이다.

지난달 DAMO는 세계 모델과 동작 모델을 최초로 융합한 WorldVLA 모델을 오픈소스로 공개하여 이미지와 동작의 이해 및 생성 능력을 향상 시켜 업계의 주목을 받았다. 이번 체화지능 3종 세트의 공개는 이러한 연속적인 기술 개발과 오픈소스 전략의 연장선 상에 있다.

오픈소스 전략의 의미와 전망

이번 DAMO의 체화지능 기술 오픈소스 공개는 단순한 기술 공유를 넘어 업계 전체의 발전을 위한 기반 인프라 구축의 의미를 갖는다. 특히 RynnRCP 프로토콜의 공개는 업계 최초로, 서로 다른 제조사의 데이터, 모델, 로봇 본체 간의 호환성 문제를 해결할 수 있는 표준화 된 솔루션을 제공한다.

체화지능 분야는 현재 각 기업과 연구기관이 독립적으로 개발하면서 생기는 파편화 문제로 인해 전체적인 발전 속도가 제한되고 있었다. RynnRCP와 같은 표준 프로토콜의 등장은 이러한 문제를 해결하고 업계 전체의 협력과 발전을 촉진할 것으로 기대된다.

또한 이러한 기술들의 오픈소스 공개는 중소기업과 스타트업들도 고품질의 체화지능 기술에 접근할 수 있게 하여, 더 다양하고 혁신적인 애플리케이션의 등장을 촉진할 것으로 예상된다. 체화지능 기술의 민주화를 통해 로봇 산업 전체의 생태계가 더욱 풍부해질 것으로 전망된다.

[참고 기사]
https://www.qbitai.com/2025/08/320807.html

[GitHub – 로봇 컨텍스트 프로토콜 RynnRCP]
https://github.com/alibaba-damo-academy/RynnRCP

[GitHub – 시각-언어-행동 모델 RynnVLA-001]
https://github.com/alibaba-damo-academy/RynnVLA-001

[GitHub – 세계 이해 모델 RynnEC]
https://github.com/alibaba-damo-academy/RynnEC

댓글 남기기