중국 AI 기업 SensTime(상탕테크놀로지)가 AI 숏드라마 제작 플랫폼 ‘Seko 2.0’을 출시하며, 전문 제작 팀 없이도 일반인이 수백 편의 연속 숏드라마를 제작할 수 있는 환경을 구축했다. 이는 연간 1,000억 위안(약 19조 원)을 넘어선 중국 숏드라마 시장에서 창작 대중화를 가속화할 것으로 전망된다.

숏드라마 시장 급성장, AI가 제작 판도 바꾼다
중국 숏드라마 시장은 전례 없는 성장세를 보이고 있다. 2024년 중국 숏드라마 시장 규모는 영화 박스오피스를 처음으로 넘어섰으며, 이러한 성장세는 AI 기술의 발전과 맞물려 더욱 가속화되고 있다. 그러나 기존 AI 숏드라마는 입 모양 불일치, 스토리 논리 오류, 장면 전환 시 캐릭터 일관성 부족 등의 문제로 시청자들의 불만을 샀다. 특히 순수 AI로 제작된 콘텐츠는 장편 구조에서 스토리 통제력을 잃거나 캐릭터와 장면 설정이 앞뒤로 모순되는 경우가 빈번했다.
SenseTime은 이러한 문제를 해결하기 위해 제품 발표 주간에 ‘Seko 2.0’을 선보였다. Seko는 업계 최초로 스토리 기획과 영상 제작을 통합한 멀티 에피소드 생성 AI 에이전트로, 올해 7월 출시 이후 수많은 영상 크리에이터들의 필수 도구로 자리 잡았다. 특히 전문 제작 팀과 협업 해 만든 AI 숏드라마 《완심계(婉心计)》는 더우인(抖音, Douyin) AI 숏드라마 랭킹 1위를 차지하며 200만 이상의 조회수를 기록했다.
Seko 2.0의 3대 핵심 업그레이드
Seko 2.0은 ‘원스텝 완성’을 표방하며 영상 생성의 상호작용성과 접근성을 극대화했다. 이번 업데이트는 세 가지 주요 기능에 집중됐다.
1. UI 전면 개편으로 몰입형 창작 경험 제공
새로운 Seko 2.0은 사용자가 영상 생성 과정에서 캐릭터, 분할 화면(스토리보드), 이미지, 장면을 실시간으로 편집하고 상호작용 할 수 있도록 인터페이스를 대폭 개선했다. 대화창 하단에서는 영감 프롬프트를 직접 선택하거나 사용자가 원하는 프롬프트를 입력할 수 있으며, 대화창 내에서 대본 업로드, 모델 선택, 캐릭터 추가, 화풍 설정까지 가능하다.
2. 100편 연속 대본 제작 지원
Seko 2.0의 가장 혁신적인 기능은 멀티 에피소드 AI 에이전트다. 이 에이전트는 텍스트를 분석해 멀티 에피소드 개요를 생성하고, 전체 시리즈의 캐릭터와 장면을 일관되게 구축한다. SenseTime Seko 제품 책임자 왕즈빈(王子彬)에 따르면, 1.0 대비 2.0은 편집 인터페이스에서 모든 캐릭터와 장면을 정밀하게 제어하고 편집할 수 있다.

화면 왼쪽에서 ‘+’ 버튼을 클릭하면 다음 에피소드를 생성할 수 있으며, 첫 번째 에피소드의 스토리 설정을 이어받아 캐릭터와 장면의 일관성을 유지한다. 사용자는 각 이미지, 스토리보드, 입 모양, 캔버스까지 세밀하게 수정할 수 있어 보다 정교한 영상 제작이 가능하다. Seko 2.0은 최대 100편의 연속 대본 제작을 지원한다.

3. AI 에이전트 스마트 스케줄링
멀티 에피소드 생성 과정에서 AI 에이전트가 자동으로 작업을 분배하고 스케줄링하여, 전문 지식이 없는 일반 사용자도 빠르게 창작을 시작할 수 있다. 이는 OpenAI의 ChatGPT가 텍스트 생성을 대중화한 것처럼, Seko 2.0이 영상 제작의 진입 장벽을 낮추는 역할을 한다.

10분 만에 완성되는 AI 숏드라마
테스트한 결과를 살펴보면, 다른 영상 제작 도구를 전혀 사용하지 않고도 영감 입력부터 개요 생성, 스토리보드 구성, 스토리보드 이미지 조정, 영상 생성, 내보내기까지 불과 10여 분 만에 1분 분량의 AI 숏드라마 1편을 완성할 수 있었다.
스토리보드 생성 후에는 각 스토리보드 이미지 상단의 캔버스 편집 및 입 모양 조정 기능을 클릭하거나, 왼쪽 하단 대화창에 프롬프트를 입력해 이미지를 재생성 할 수 있다. 생성된 숏드라마 영상에서 여주인공의 이미지는 다양한 장면 전환과 표정 변화 과정에서도 높은 일관성을 유지했으며, 어색함이나 단절감이 전혀 없었다.
특히 주인공의 표정 변화가 매우 섬세했다. 여주인공의 내면 독백 장면에서는 미간을 찌푸리다가 고개를 숙이고 표정이 완화되는 등의 변화를 통해 캐릭터의 심리 상태를 정확하게 묘사했다. 이러한 디테일은 메타(Meta)의 AI 아바타 기술이나 구글의 Imagen Video와 비교해도 손색 없는 수준이다.

기술 혁신의 4대 핵심 요소
Seko 2.0이 보여준 우수한 영상 생성 품질의 이면에는 SenseTime의 전방위 기술 업그레이드가 자리하고 있다.
SekoIDX: 캐릭터 일관성 기술
숏드라마 제작에서 가장 큰 골칫거리 중 하나는 ‘얼굴 바뀜’ 문제다. 장면이 바뀌거나 표정이 변할 때 캐릭터의 얼굴이 왜곡되거나 특징이 변하는 현상으로, 시청자의 몰입도를 크게 떨어뜨린다. SekoIDX는 디퓨전 모델(Diffusion Model) 최적화를 통해 참조 이미지의 유사성과 프롬프트 응답성 간의 균형을 맞춰, 생성 결과를 정밀하게 제어할 수 있다. 정방향 및 역방향 참조 이미지를 제공하고 적절히 부참조 이미지를 추가함으로써, 주체의 다양성과 일관성을 동시에 확보하여 단순한 복사-붙여넣기 식의 이미지 합성을 피한다.
SekoTalk: 업계 최초 다중 인물 립싱크 솔루션
SekoTalk은 2명 이상의 립싱크를 지원하는 업계 최초의 솔루션이다. 숏드라마에서 다중 인물의 립싱크는 필수 요구 사항이며, 제작 과정에서 다중 대화, 연속적인 화자 전환, 말버릇 재현 등의 핵심 과제에 직면한다. SenseTime의 실시간 음성 기반 디지털 휴먼 기술 SekoTalk은 8개 GPU 서버에서 초당 25프레임(FPS)의 생성 속도를 달성하며, 첫 프레임 지연 시간은 3.5초에 불과하다. 다중 인물, 다중 언어의 정밀한 립싱크와 장시간 안정적인 생성이 가능하다는 점에서 구글의 SoundStream이나 메타의 Wav2Lip 같은 기존 기술들을 능가한다.
Phased DMD 증류: 효율성 향상 기술
디퓨전 모델의 저스텝 생성 품질은 등가 모델 품질에 제한을 받는다. 등가 모델의 용량이 부족하면 저스텝 생성 영상에서 흐림, 디테일 손실, 논리적 혼란 등의 문제가 발생한다. 주류 SOTA(State-of-the-Art) 영상 생성 모델들은 이미 MoE(Mixture of Experts) 기술의 장점을 검증했으며, 추론 단계에서 연산 오버헤드를 증가 시키지 않는다.
SenseTime 연구팀은 혁신적으로 Phased DMD 기술을 제안했다. 이 기술은 증류 모델 생성의 동적 효과와 다양성을 향상 시키면서, SekoTalk의 추론 오버헤드를 1/25로 줄이면서도 교사 모델의 우수한 신체 움직임 효과와 감정 표현력을 유지한다. 동시에 Seko 2.0은 이미 가성비가 높은 캄브리콘(Cambricon) 칩 적응 방안을 지원한다.
LightX2V: 실시간 영상 생성 추론 프레임워크
SenseTime이 오픈소스로 공개한 업계 최초의 실시간 영상 생성 추론 프레임워크 LightX2V는 모델과 시스템 설계 초기부터 저비트 양자화 인식 훈련, 희소 어텐션(Sparse Attention) 등의 네이티브 최적화를 포함 시켰다. 자체 개발한 ‘SPARSE+NVFP4+저비트 통신’ 고효율 어텐션 연산자와 결합하여, 모델 훈련 완료 후 바로 저자원 배포가 가능하다. 이 오픈소스 프레임워크의 누적 다운로드 수는 이미 350만 회를 돌파했다.
전문가부터 초보자까지, ‘1인 제작팀’ 시대 개막
제품 개발 철학에 대해 왕즈빈 책임자는 “크리에이터와 친구가 되고, 크리에이터에게 편의를 제공하며, 크리에이터의 요구를 충족시키는 것, 즉 ‘모든 것을 크리에이터 중심으로’라는 원칙을 실천하는 것”이라고 밝혔다.
이는 Seko의 사용자 분석에서도 확인할 수 있다. 고정적인 창작 수요를 가진 사용자가 50~60%를 차지하는데, 이들은 두 부류로 나뉜다. 첫 번째는 전문 고빈도 크리에이터로, 자신의 콘텐츠에 대한 높은 통제력과 요구사항을 가지며 도구의 사용 편의성을 중시한다. 두 번째는 MCN(Multi-Channel Network) 크리에이터로, 영상 제작에 대한 자신만의 이해를 갖고 있으며 주당 1~2개의 고정적인 영상 제작 수요가 있다.
왕즈빈은 《완심계》가 전문 제작팀이 Seko를 기반으로 제작한 AI 숏드라마라고 소개했다. 제작팀은 Seko로 대부분의 작업을 완료한 후 다른 도구를 활용해 고품질 후반 작업을 진행했다고 한다.
나머지 30~40%는 전혀 창작 경험이 없는 사용자로, 이들은 일반적으로 2차 창작 수요가 없어 장기 유지가 어렵다. 그러나 Seko 2.0의 등장으로 이러한 초보 사용자들도 점진적으로 창작 생태계에 편입될 것으로 전망된다.
교육부터 엔터테인먼트까지, 다양한 산업으로 확산
이전에는 영상 제작에 전문 제작팀이 필요했고 비용이 수백만 위안(한화 약 1억 원)에 달했지만, 이제는 일반인이 가정용 PC로 완성도 높은 영상을 제작할 수 있게 되면서 영상 창작이 훨씬 다양한 분야로 응용되고 있다.
산시(山西)성의 한 국어 교사는 Seko를 통해 학생들의 작문을 바로 영상으로 변환했다. 영상 재생 과정에서 시각적 형식을 통해 학생들의 우수 작문 내용에 대한 공감과 인정을 높이는 동시에 창의력과 상상력을 더욱 강화할 수 있었다.
또한 다양한 분야의 크로스오버 창작 열풍도 일고 있다. 프로그래머가 Seko로 무협 영화의 꿈을 실현하고, 작가가 소설을 원클릭으로 시각화 된 영상으로 변환하며, 공무원이 생생한 역사 애니메이션을 제작하는 등 AI 영상 도구가 산업 간 벽을 허물고 더 큰 산업 가치를 창출하고 있다.
이와 같이 기존 영상 창작 분야에서의 높은 진입 장벽과 낮은 생산성 문제가 Seko 2.0 등 AI 기술 발전에 따라 일반인들도 활용 가능한 수준까지 내려가면서, 향후 다양한 아이디어와 스토리의 창작 활동이 점점 더 증가 될 것으로 기대된다.
[Seko 2.0 웹사이트]
https://seko.sensetime.com/explore