바이트댄스가 선보인 ‘더우바오(豆包) 팟캐스트 모델’이 AI 음성 기술의 새로운 전환점을 제시하고 있다. 이 혁신적인 AI 모델은 단 한 문장의 프롬프트 만으로도 마치 실제 진행자 두 명이 대화하는 것처럼 자연스러운 팟캐스트를 생성할 수 있어 큰 주목을 받고 있다.

실제 사람과 구별하기 어려운 자연스러운 대화
더우바오 팟캐스트 모델의 가장 놀라운 특징은 생성된 음성의 자연스러움이다. 두 AI가 진행하는 대화는 실제 사람들의 대화와 거의 구별이 불가능할 정도로 완성도가 높다. 남성 AI가 내용을 설명하는 동안 여성 AI가 “음”, “맞아”, “그렇지” 같은 자연스러운 맞장구를 치며, 실제 대화에서 나타나는 자연스러운 호흡과 억양, 감정 표현까지 완벽하게 재현한다.

이 기술을 테스트해 본 결과, 주변 사람들 대부분이 이것이 AI가 생성한 음성이라는 사실을 전혀 눈치채지 못했다고 한다. 더우바오 팟캐스트 모델은 PC 버전에서 웹페이지 내용을 선택한 후 “웹페이지 팟캐스트” 버튼을 클릭하기만 하면 약 5초 이내에 자막이 포함된 팟캐스트를 생성할 수 있다.


실시간 화제부터 장문 보고서까지 다양한 콘텐츠 처리
더우바오 팟캐스트 모델의 실용성을 확인하기 위해 다양한 테스트가 진행되었다. 웨이보 실시간 검색어인 “야둬호텔 사과” 사건을 주제로 한 팟캐스트 생성에서는 AI가 단순히 사실을 전달하는 것을 넘어 명확한 관점과 태도를 보여주었다. AI는 “이들의 대응은 공식적으로 보이지만 실제로는 문제를 해결하지 못했다”며 비판적인 시각을 제시하기도 했다.

최근 화제가 된 스코티시 프리미어십 축구 관련 팟캐스트에서는 경기의 독특함과 순수함, 그리고 관련 밈까지 완벽하게 이해하고 설명하는 모습을 보였다. 이는 더우바오 팟캐스트 모델이 단순한 정보 전달을 넘어 문화적 맥락까지 파악할 수 있음을 보여준다.

340페이지에 달하는 인터넷 여왕 AI 보고서를 대상으로 한 테스트에서는 7분 분량의 장편 팟캐스트를 생성했다. 더우바오 팟캐스트 모델은 방대한 내용을 사용자 증가, 컴퓨팅 비용, 글로벌 경쟁, 산업 영향 등의 섹션으로 체계적으로 정리하여 쉽게 이해할 수 있도록 설명했다.

엔드투엔드 실시간 음성 모델 기반 기술
더우바오 팟캐스트 모델의 뛰어한 성능은 바이트댄스가 올해 1월 발표한 엔드투엔드 실시간 음성 모델을 기반으로 한다. 이 모델은 중국 내 1위, GPT-4o와 견줄 만한 성능을 기록했으며, 중국어 음성 상호작용에서는 GPT-4o를 능가하는 결과를 보였다.
기존의 음성 대화 기술이 ASR(자동 음성 인식) → LLM(대화 텍스트 생성) → TTS(텍스트 음성 변환)의 단계적 처리 방식을 사용했다면, 더우바오의 엔드투엔드 모델은 음성 모달리티에서 직접 이해와 추론을 수행한다. 이를 통해 사용자의 감정과 비언어 정보에 대한 이해 능력이 크게 향상되었고, 시스템 지연도 대폭 줄일 수 있었다.
다중 모달 훈련과 고품질 데이터 활용
사전 훈련 단계에서 바이트댄스 팀은 각 모달리티가 교차하는 데이터에 대한 심화 훈련을 통해 대량의 음성 정보를 정확하게 포착하고 효율적으로 압축했다. 스케일링 개념을 통해 음성과 텍스트 능력의 깊은 융합과 능력 창발을 최대한 실현했다.
이 과정에서 모델은 S2S(음성-음성), S2T(음성-텍스트), T2T(텍스트-텍스트) 등 다양한 입출력 모드를 학습했다. 후훈련 단계에서는 고품질 데이터와 강화학습 알고리즘을 사용하여 모델의 높은 감성지능 대화 능력과 안전성을 더욱 향상시켰다.
의인화 된 감정 표현과 음성 제어 능력
더우바오 팟캐스트 모델은 네 가지 핵심 차원에서 획기적인 발전을 이뤘다.
첫째, 의인화 된 감정 승계 능력으로 사용자가 불쾌감을 표현하면 위로하는 어조로, 기분이 좋을 때는 즐거운 어조로 적극 대응한다.
둘째, 음성 제어와 감정 연출 능력이다. 복잡한 지시를 지원하여 전문가 급 감정 전환과 표현력을 실현한다. 역할 음성 학습을 통해 생동감 있는 역할/상태 전환이 가능하며, 상호작용의 재미와 몰입감을 증대시킨다.
셋째, 지능과 표현력의 균형이다. 사용자 입력을 깊이 이해하고 실제적이고 유용하며 실제 사람에 근접한 표현력의 음성을 출력한다.
넷째, 매끄러운 상호작용과 초저지연이다. 음성 생성과 이해를 공동으로 모델링하여 생성 정확성과 자연스러움을 향상시켰다.

음성 복제 기술의 혁신적 발전
더우바오의 음성 복제 모델도 프레임워크 업그레이드를 통해 새로운 차원에 도달했다. 기존 업계의 복제 모델이 소량의 프롬프트 입력으로 사용자 음성을 복제할 수 있지만 ‘형태’만 학습할 뿐 ‘정신’을 학습하기 어려웠다면, 더우바오의 음성 복제 모델은 음색 복제 뿐만 아니라 대화 맥락에 따라 더욱 동적인 응답을 제공한다.
감정 차원에서의 매칭이 가능하며, 심지어 복제된 음성으로 원래 발음자가 할 수 없었던 노래나 랩 등의 능력까지 구현할 수 있어 음성을 더욱 의인화되고 생동감 있게 만든다.
미래 전망과 응용 가능성
더우바오 실시간 음성 모델은 곧 있을 Volcano Engine Force 대회에서 전면 출시될 예정이며, 더 많은 팟캐스트 기능들이 더우바오 PC 버전에 순차적으로 추가될 계획이다. 현재 더우바오 팟캐스트 모델은 쿠우쯔 스페이스(space.coze.cn)에서도 체험할 수 있으며, 더우바오 PC 버전에서는 “웹페이지 팟캐스트” 기능을 직접 사용할 수 있다.
Volcano Engine의 AI 음성 기술 발전, 특히 더우바오 팟캐스트 모델은 단순히 새로운 AI 기능을 추가한 것을 넘어 ‘듣는’ 방식으로 정보를 획득하는 새로운 패러다임을 제시한다. 또한 오디오 콘텐츠 제작의 진입 장벽을 대폭 낮춰 누구나 쉽게 고품질 팟캐스트를 생성할 수 있게 했다는 점에서 큰 의미를 가진다.