중국 영상 생성 AI 'Vidu', 최대 7개 객체 동시 인식 가능한 '참조 생성 기능' 출시

중국의 AI 비디오 생성 플랫폼 Vidu가 혁신적인 ‘참조 생성(参考生)’ 기능을 정식 출시했다고 7월 9일 발표했다. 이 기능은 사용자가 업로드한 인물, 장면, 소품 이미지를 통해 조형이 통일되고 동작이 자연스러운 고화질 비디오 콘텐츠를 원클릭으로 생성할 수 있게 해준다.

최대 7개 객체 동시 인식, 멀티 캐릭터 상호작용 구현

Vidu의 참조 생성 기능은 최대 7개의 주체 이미지를 입력할 수 있으며, 인물의 ‘얼굴 바뀜’ 현상이 없고 장면이 혼란스럽지 않도록 설계됐다. 이를 통해 다중 캐릭터가 동일 화면에서 상호작용하고 장면 간 교차 활용이 가능해졌다.

해당 기능은 Vidu Q1 모델 기반으로 구동되며, 1080P 출력을 지원한다. 사용자가 각 프레임을 수동으로 제어하거나 첫 번째와 마지막 프레임을 설정할 필요 없이, 전체 생성 과정이 이미지 설정을 바탕으로 자동 완성된다. 현재 참조 생성 기능은 Vidu 웹 버전과 모바일 버전에서 동시에 서비스되고 있다.

이미지 업로드만으로 연속 촬영과 음향 효과까지

참조 생성 기능에서 사용자는 캐릭터 이미지 한 장만 업로드하면, 시스템이 인물의 외관, 의상, 동작 특징을 자동으로 인식해 5~10초의 비디오 클립을 생성한다. 화면 속 캐릭터는 장면 전환 시에도 ‘얼굴 바뀜’ 현상이 발생하지 않으며 세부사항도 손실되지 않아, 인물 조형과 동작 스타일의 일관성을 유지한다.

캐릭터 설정뿐만 아니라 사용자는 배경 이미지와 소품 이미지도 추가해 완전한 장면을 구축할 수 있다. 이러한 요소들은 비디오 생성 시 함께 인식되어 통일된 화면을 구성한다. 예를 들어 카우보이 인물 2명, 장면 2개, 권총 2자루의 참조 이미지를 입력하면 ‘서부 대작’ 스타일의 영상을 생성할 수 있다.

화면 콘텐츠 외에도 Vidu는 이번에 AI 음향 효과 기능도 함께 출시했다. 사용자가 간단한 설명만 입력하면 화면과 매치되는 음향 효과 클립을 생성할 수 있다. 현재 ‘빗소리+발자국 소리+배경음악’과 같이 여러 음향 효과의 동시 중첩을 지원하며, 화면 리듬에 자동으로 맞춰진다. 이 기능은 크리에이터들의 후반 작업 중 더빙, 소재 라이브러리 검색 등의 작업 비용을 대폭 줄여 ‘전체 프로세스 자동 생성’ 방향으로 한 걸음 더 다가섰다.

인물 고정, 장면 변경으로 다양한 콘텐츠 제작

참조 생성 기능은 동일한 인물을 서로 다른 환경에 배치해 생성하는 것도 지원한다. 이는 사용자가 ‘동일 캐릭터가 여러 장소를 넘나드는’ 연속적인 콘텐츠를 제작할 수 있음을 의미한다. 예를 들어 광고 시나리오에서 하나의 인물 설정으로 다중 장면 버전을 동시에 생성하고, 서로 다른 상업 촬영 소재로 교체해 전체 소재 세트를 완성할 수 있다.

이러한 방식은 특히 통일된 인물 이미지가 필요한 콘텐츠 제작에 적합하다. 브랜드 홍보, IP 캐릭터 운영, 전자상거래 광고 등의 시나리오에서 그 효과가 두드러진다. 기존에는 이런 콘텐츠 그룹을 생성하려면 반복적인 ‘뽑기식’ 생성과 후반 선별 작업이 필요했지만, 이제는 원클릭으로 완성할 수 있게 됐다.

참조 생성으로 만든 비디오의 또 다른 명확한 변화는 한 영상에 여러 캐릭터를 추가해 동시에 화면에 등장시킬 수 있다는 점이다. 이는 대화형 단편 드라마, 줄거리 편집, 심지어 IP 연동 콘텐츠를 제작하려는 사용자들에게 기존 AI 도구로는 구현하기 어려웠던 기능이다.

시스템은 각 캐릭터의 공간 관계와 상대적 동작을 자동으로 인식해, 여러 캐릭터 간의 상호작용이 자연스럽고 안정적으로 보이도록 한다. 시스템은 최대 7개의 주체 이미지를 동시에 입력 받을 수 있으며, 주인공, 조연, 장면, 소품 등 다양한 요소를 포함한다. 생성 과정에서 시스템은 각 캐릭터의 공간 위치와 상대적 동작을 자동으로 인식해 상호작용 관계가 자연스럽고 화면 구조가 안정적이 되도록 하며, 각 캐릭터가 장면 전환에서도 외관, 조형, 세부사항의 일관성을 유지하도록 한다.

이로써 AI 비디오 제작이 ‘1인 독백’에서 더욱 장면 표현력이 풍부한 ‘다인 공연’으로 발전했다. 예를 들어 서로 다른 시대, 국가, 지역 출신의 제갈량, 처칠, 나폴레옹 세 인물을 동일한 회의실에서 대화하게 할 수 있다. 사용자는 세 인물의 이미지 소재와 해당 프롬프트(‘[@제갈량]이 [@처칠], [@나폴레옹]과 회의실에서 마주 앉아 토론한다’)만 입력하면 세 사람의 대화 영상을 생성할 수 있다.

향상된 성능과 실용적인 가격 정책

Vidu 초기 버전과 비교해 Q1 참조 생성은 화질, 안정성, 생성 효율 모든 면에서 뚜렷한 향상을 보였다. 현재 버전은 5초 분량의 1080P 비디오 생성에 약 1~2분이 소요된다.

비용 측면에서 해당 플랫폼의 현재 가격은 5초 비디오 당 약 0.895위안(약 170원)으로, 기본 패키지로 계산하면 1000위안(약 19만원)으로 약 48분의 비디오 콘텐츠를 생성할 수 있다.

실제 체험에서는 사용자가 Vidu 플랫폼에 로그인한 후 이미지 업로드를 통해 ‘주체 캐릭터’를 생성할 수 있으며, 시스템이 자동으로 스타일과 설명 텍스트를 생성해준다. 사용자는 필요에 따라 수정하거나 사용자 정의 설정을 할 수 있다. 또한 배경 이미지 업로드를 통해 사용자 정의 장면 구축도 지원하며, 플랫폼은 화면 적응을 위한 기본적인 크롭 기능을 제공한다.

실용성 중심의 AI 비디오 생성 기술 진화

기존의 이미지-비디오, 텍스트-비디오 제품과 비교해 Vidu Q1 참조 생성의 업데이트는 AI 비디오를 처음으로 ‘반복 사용 가능한’ 도구로 만들었다. 사용자는 더 이상 생성 운에 의존하거나 편집 기술이 필요하지 않으며, 이미지만 준비하면 구조가 안정된 비디오 콘텐츠를 배치 생산할 수 있다.

이는 많은 중소형 크리에이터, 전자상거래 상인, 콘텐츠 팀에게 프로세스의 간소화를 의미한다. 스튜디오 대여, 배우 섭외, 복잡한 콘티 작업 없이도 설정 이미지만으로 전체 콘텐츠 제작을 완성할 수 있게 됐다.

앞으로는 더 길고, 더 복잡하며, 더 제어 가능한 비디오 구조를 생성하는 것이 이런 유형의 제품이 더욱 발전하는 방향이 될 것이다. 하지만 현재 단계의 사용자에게는 참조 생성이 이미 ‘얼마나 비슷하게 생성되는가’와 ‘사용할 수 있는가’라는 기본적인 문제를 해결했으며, 이는 실용적 의미에서의 진화라고 할 수 있다.

참조 생성 기능의 출시는 AI 비디오 생성 기술이 단순한 실험적 도구에서 실제 업무에 활용 가능한 생산성 도구로 발전했음을 보여준다. 특히 캐릭터 일관성 유지와 다중 객체 상호작용 구현은 기존 AI 비디오 생성 기술의 한계를 극복한 중요한 진전으로 평가된다.

[참고 기사]
https://zhidx.com/p/491255.html

최대 7개 객체 동시 인식, 멀티 캐릭터 상호작용 구현

이미지 업로드만으로 연속 촬영과 음향 효과까지

인물 고정, 장면 변경으로 다양한 콘텐츠 제작

향상된 성능과 실용적인 가격 정책

실용성 중심의 AI 비디오 생성 기술 진화

Latest News

Robot

중국 바이트댄스, 신발끈도 묶을 수 있는 정밀한 로봇 강화학습 모델 ‘GR-RL’ 공개

Mobile

화웨이, 세계 최초 AI 에이전트 협업(A2A) 스마트폰 공개

AI

텐센트, 업계 최초 고품질 네이티브 3D 부품 생성 모델 ‘Hunyuan3D-Part’ 공개

AI

바이두, 시각 이해 모델 QIANFAN-VL 오픈소스 공개

Display

TCL, 업계 최초 SQD-Mini LED 기술 탑재한 플래그십 TV 라인업 X11L 출시

중국 영상 생성 AI ‘Vidu’, 최대 7개 객체 동시 인식 가능한 ‘참조 생성 기능’ 출시

최대 7개 객체 동시 인식, 멀티 캐릭터 상호작용 구현

이미지 업로드만으로 연속 촬영과 음향 효과까지

인물 고정, 장면 변경으로 다양한 콘텐츠 제작

향상된 성능과 실용적인 가격 정책

실용성 중심의 AI 비디오 생성 기술 진화

Latest News