중국 AI 기업 쿤룬완웨이(Kunlun Wanwei, 昆仑万维)가 음성 기반 비디오 생성 디지털 휴먼 모델 ‘SkyReels-A3’를 공개했다. 이 모델은 업계 최고 수준(SOTA)의 성능을 자랑하며, 60초 이상의 장시간 영상에서도 완전한 일관성을 유지할 수 있다고 발표했다.

쿤룬완웨이 SkyReels-A3, 업계 최고 수준의 디지털 휴먼
쿤룬완웨이는 8월 11일부터 5일간 진행되는 ‘SkyWork AI 기술 발표 주간’의 첫 번째 모델로 SkyReels-A3를 선보였다. 기존 디지털 휴먼 기술의 기계적인 느낌과 부자연스러운 AI 특성을 해결하고자 개발된 이 모델은 실제 인간과 구별하기 어려울 정도의 자연스러운 영상을 생성한다.
SkyReels-A3는 사용자가 하나의 사진과 음성 파일, 그리고 간단한 텍스트 지시만 입력하면 고품질의 디지털 휴먼 영상을 생성할 수 있다. 특히 라이브 커머스와 같은 실제 비즈니스 환경에서 활용할 수 있을 정도로 정교한 입 모양 동기화와 자연스러운 손동작을 구현한다.

다양한 언어와 복잡한 동작 지원
실제 테스트에서 SkyReels-A3는 중국어, 광둥어, 영어 등 다양한 언어에 대해 정확한 입 모양 동기화를 보여줬다. 또한 기존 AI 모델들이 자주 실패했던 손가락 생성 문제도 해결해, 자연스러운 손동작과 물품과의 상호작용을 구현했다.
특히 주목할 점은 연설, 뮤직비디오, 상품 판매 등 다양한 시나리오에 맞춘 표정과 동작을 생성할 수 있다는 것이다. 모델은 주어진 상황을 이해하고 그에 적합한 행동을 보여주는 수준까지 발전했다.

혁신적인 카메라 워크와 장시간 안정성
SkyReels-A3는 8가지 카메라 움직임을 지원한다. 고정 촬영(static), 푸시 인(push in), 푸시 아웃(push out), 좌측 팬(pan left), 우측 팬(pan right), 상승(crane up), 하강(crane down), 핸드 헬드(swing) 등의 촬영 기법을 0-100% 강도로 조절할 수 있어 전문적인 영상 제작이 가능하다.
더욱 인상적인 것은 60초 이상의 장시간 영상에서도 화면 붕괴, 깜빡임, 인물 변형 없이 안정적인 품질을 유지한다는 점이다. 기존 대부분의 모델이 3-5초 짧은 영상에 집중했던 것과 달리, SkyReels-A3는 실제 상용 서비스에 필요한 긴 영상을 안정적으로 생성할 수 있다.

DiT 아키텍처 기반의 기술적 혁신
SkyReels-A3는 DiT(Diffusion Transformer) 비디오 확산 아키텍처를 기반으로 개발됐다. 이 아키텍처는 장시간의 시퀀스 의존성을 효과적으로 모델링 할 수 있어, 시간적으로 길고 전후 연관성이 밀접한 비디오 콘텐츠 처리에 특화됐다.
또한 3D 변분 자동 인코더(3D-VAE)를 도입해 잠재 공간에서 표현 학습을 수행한다. 이는 비디오를 압축된 핵심 버전으로 변환해 확산 모델의 계산 복잡도를 크게 줄이면서도 핵심 시각적 특징의 완전성을 보장한다.

오류 누적 문제 해결로 장시간 영상 품질 확보
기존 영상 생성 모델의 가장 큰 문제 중 하나는 장시간 영상 생성 시 오류가 누적돼 화면이 점진적으로 붕괴되는 현상이었다. 쿤룬완웨이 연구팀은 새로운 정렬 훈련 전략을 채택해 이 문제를 해결했다.
과거 프레임에서 연속성 정보를, 참조 이미지에서 화면 일관성 정보를 제공 받아 오류 누적을 줄이는 방식이다. 이를 통해 화면 붕괴 없이 분 단위의 긴 영상을 연속적으로 생성할 수 있게 됐다.
손과 물품의 상호작용 부분에서는 온라인 라이브 방송 등의 시나리오에 특화된 데이터를 구축하고, 다양한 시드와 훈련 과정 체크포인트를 활용해 대량의 후보를 생성함으로써 더욱 자연스럽고 물리 법칙에 부합하는 손동작을 구현했다.

업계 최고 성능 달성, 상용화 준비 완료
정량적 평가에서 SkyReels-A3는 오픈소스 모델인 OmniAvatar와 상용 모델인 OmniHuman 등 기존 선진 모델들을 대부분의 지표에서 뛰어넘었다. 특히 입술 동기화(sync-c) 측면에서 탁월한 성능을 보였다.
인간 평가에서는 얼굴과 주체의 안정성, 동작 자연스러움, 입 모양 동기화, 인물 품질 등 모든 면에서 최고 성과를 달성해 ‘오각형 전사’ 라는 평가를 받았다. 연구팀은 또한 단계 증류(step distillation)를 도입해 기존 40단계에서 4단계로 줄이면서도 성능 손실을 거의 없앴다고 밝혔다.

광범위한 활용 가능성과 상용 서비스
SkyReels-A3는 현재 모든 사용자에게 개방돼 무료로 이용할 수 있다. 가상 아이돌, 가상 인간 라이브 방송, 온라인 교사, 면접관 디지털 휴먼, 게임 도우미 등 다양한 분야에서 활용 가능하다.
특히 라이브 커머스 분야에서의 활용도가 높을 것으로 예상된다. 기존에는 복잡한 기술 지식이 필요했던 디지털 휴먼 제작이 이제는 누구나 쉽게 할 수 있게 됐다. 아이디어와 간단한 마우스 클릭 만으로 몇 분 만에 전문적인 디지털 휴먼 영상을 제작할 수 있어, 콘텐츠 창작자들의 ‘창조력 폭발’ 시대를 열 것으로 보인다.

쿤룬완웨이는 2024년부터 AI 비디오 분야에 지속적으로 투자해왔으며, 중국 최초의 AI 단편 드라마 창작용 비디오 생성 모델 SkyReels-V1과 세계 최초의 무한 길이 비디오 생성 모델 SkyReels-V2를 연이어 출시한 바 있다. SkyReels-A3는 이러한 기술 축적의 결과물로, AI 비디오 생성 기술의 상용화 가속화에 크게 기여할 것으로 평가 받고 있다.
