AI가 실시간으로 게임 세계 구현!! 중국 쿤룬완웨이 세계모델 ‘Matrix-Game 2.0’ 오픈소스 공개

2025년 08월 18일

쿤룬완웨이

중국 AI 기업 쿤룬완웨이(昆仑万维)가 자체 개발한 세계모델 Matrix 시리즈의 최신 버전인 ‘Matrix-Game 2.0’을 오픈소스로 공개했다고 8월 12일 발표했다. 이는 구글 DeepMind가 지난주 공개한 인터렉티브 세계모델 Genie 3에 대응하는 중국 기업의 기술력을 과시하는 것으로 평가된다.

Matrix-Game 2.0은 업계 최초로 일반적인 시나리오에서 실시간으로 긴 시퀀스의 인터렉티브하게 생성할 수 있는 오픈소스 세계모델 솔루션이다. 구글의 Genie 3가 비공개인 것과 달리, 쿤룬완웨이는 완전히 오픈소스로 기술을 공개하여 개발자들이 자유롭게 활용할 수 있도록 했다.

이 세계모델은 체화지능(Embodied Intelligence), 게임, 영화 및 메타버스 등 다양한 영역의 개발자들에게 데이터 합성, 모델 훈련, 시나리오 구축을 위한 강력한 생산성 도구를 제공한다는 점에서 산업계의 주목을 받고 있다.

쿤룬완웨이

초고속 실시간 비디오 생성과 정밀한 상호작용 구현

Matrix-Game 2.0의 가장 주목할 만한 특징은 세 가지 핵심 기술적 혁신에 있다.

첫째, 실시간 증류(Real-time Distillation) 기술을 통해 ‘소수 단계 확산(Few-step Diffusion)’ 방식을 채용하여 25FPS의 스트리밍 비디오 합성을 실현했다. 이를 통해 복잡한 환경에서도 분 단위의 고화질 비디오를 초고속으로 생성할 수 있다.

둘째, 정밀한 동작 주입(Precise Action Injection) 기능을 통해 ‘마우스/키보드에서 프레임으로’ 모듈을 구현했다. 이는 사용자 입력을 직접적인 상호작용으로 임베딩하여 생성되는 비디오에서 프레임 수준의 제어와 동적 반응을 가능하게 한다.

셋째, 대규모 인터렉티브 데이터 파이프라인을 구축하여 언리얼 엔진(Unreal Engine)과 GTA5에 적용 가능한 확장 가능한 생산 시스템을 개발했다. 이 시스템은 약 1200시간 분량의 고품질 교호형 비디오 데이터를 생성할 수 있으며, 다양화된 시나리오를 포함하면서도 프레임 수준의 사실감을 보장한다.

다양한 게임 환경에서의 뛰어난 성능 입증

성능 테스트에서 Matrix-Game 2.0은 마인크래프트(Minecraft) 시나리오의 GameWorld Score 벤치마크 테스트에서 우수한 성과를 거두었다. 이미지 품질, 미학적 품질, 마우스 포인터 등 여러 방면에서 세계 최초의 실시간 플레이 가능한 인터렉티브 세계모델인 Oasis를 뛰어넘는 점수를 기록했다.

특히 제약이 없는 실제 시나리오에서 Matrix-Game 2.0은 사용자가 입력하는 임의의 제어 명령에 따라 대응하는 인터렉티브 세계 비디오를 생성할 수 있다. W/A/S/D 방향키나 시야각 이동을 위한 마우스 조작 등을 통해 캐릭터의 전후좌우 이동과 시각 변환 등 동적 행동을 지원한다.

GTA 게임 시나리오와 마인크래프트 시나리오에서도 Matrix-Game 2.0은 키보드와 마우스 조작을 지원하며, 더욱 사실적이고 물리 법칙에 부합하는 인터렉티브한 비디오를 생성할 수 있다. 이는 기존의 정적인 AI 생성 콘텐츠와 달리 실시간 상호작용이 가능한 동적 환경을 제공한다는 점에서 혁신적이다.

자기회귀 확산 생성 메커니즘의 기술적 혁신

Matrix-Game 2.0의 핵심은 혁신적인 자기회귀 확산 생성 메커니즘에 있다. 기존의 인터렉티브 비디오 생성 분야의 모델들이 양방향 주의 메커니즘과 긴 추론 단계에 의존하여 실시간 성능이 크게 제한되는 문제를 해결하기 위해 개발되었다.

이 세계모델의 프레임워크는 세 가지 핵심 구성요소로 이루어져 있다.

첫째, 언리얼 엔진과 GTA5 환경에 적용 가능한 확장 가능한 데이터 생산 파이프라인으로, 약 1200시간의 대용량 인터렉티브 비디오 데이터를 효과적으로 생성할 수 있다.

둘째, 프레임 수준의 마우스와 키보드 입력 상호작용을 지원하는 동작 주입 모듈을 포함한다.

셋째, 실시간 스트리밍 비디오 생성을 위한 임의 아키텍처 기반의 소수 단계 증류 기술을 활용한다.

Matrix-Game 2.0은 Self-Forcing 훈련 전략을 바탕으로 혁신적인 자기회귀 확산 생성 메커니즘을 통해 전통적인 양방향 확산 모델의 지연시간과 오류 누적 문제를 극복했다. 인과 확산 모델 훈련을 통해 양방향 확산 모델을 인과 모델로 증류하고, 분포 매칭 증류(DMD) 방식으로 기본 모델과의 분포 차이를 최소화한다.

KV 캐시 메커니즘으로 장시간 비디오 생성 최적화

특히 주목할 만한 기술적 혁신은 KV 캐시 메커니즘의 도입이다. 이는 키-값 캐시 메커니즘(KV-Cache)을 통해 장시간 비디오 생성의 효율성과 일관성을 크게 향상시켰다. 고정 길이의 주의 컨텍스트를 유지함으로써 매끄러운 롤링 생성을 실현하고, 무한 시간의 비디오 출력을 지원한다.

이 메커니즘은 훈련과 추론 시나리오 간의 컨텍스트 불일치 문제를 해결하며, 반복 계산 없이도 장시간 비디오의 고효율 생성을 가능하게 한다. 단일 GPU에서도 25FPS 실시간 생성을 구현할 수 있어 상용화 가능성을 크게 높였다.

Matrix-Game 2.0은 WanX를 기반으로 한 기본 모델에서 텍스트 분기를 제거하고 동작 모듈을 추가하여, 시각적 콘텐츠와 해당 동작만으로 다음 프레임을 예측할 수 있도록 최적화되었다. 이를 통해 25FPS의 초고속으로 다양한 시나리오에서 고품질의 분 단위 비디오를 생성할 수 있다.

쿤룬완웨이, 오픈소스로 산업 생태계 발전 촉진

쿤룬완웨이는 Matrix-Game 2.0의 모델 가중치와 코드 라이브러리를 완전히 오픈소스로 공개하여 인터렉티브 세계 모델링 연구를 촉진하고 있다. 프로젝트 홈페이지, HuggingFace, GitHub 등을 통해 개발자들이 자유롭게 접근하고 활용할 수 있도록 했다.

이러한 오픈소스 접근 방식은 구글의 폐쇄적인 Genie 3와 대비되는 전략으로, 중국 AI 기업들이 개방형 생태계 구축을 통해 기술 혁신을 가속화하려는 의도를 보여준다. 특히 구체화된 지능체 훈련과 데이터 생성, 가상 게임 세계의 효율적 구축, 영화 및 메타버스 콘텐츠 제작 등의 분야에서 새로운 발전 동력을 제공할 것으로 기대된다.

세계모델 기술의 발전은 AI가 단순한 콘텐츠 생성 도구에서 ‘세계 구축자’로 업그레이드되는 패러다임 변화를 이끌고 있다. 쿤룬완웨이의 Matrix 시리즈는 중국이 공간 지능 분야에서 거둔 중요한 이정표적 진전을 나타내며, 중국 AI 산업에 새로운 발전 방향을 제시하고 있다.

[참고 기사]
https://zhidx.com/p/496869.html

[프로젝트 홈페이지]
https://matrix-game-v2.github.io/

[HuggingFace 주소]
https://huggingface.co/Skywork/Matrix-Game-2.0

[GitHub 주소]
https://github.com/SkyworkAI/Matrix-Game

댓글 남기기