중국 AI 스타트업 MiniMax가 8월 7일 새로운 음성 생성 모델 ‘Speech 2.5’를 출시했다고 발표했다. 이번 신모델은 40개 언어를 지원하며 실제 인간 수준의 자연스러운 음성 생성이 가능하다. 이미 히말라야, 넷이즈(NetEase) 등 중국 주요 플랫폼들이 이 기술을 도입했다.

MiniMax Speech 2.5의 핵심 개선 사항
Speech 2.5는 올해 5월 출시된 Speech 02 대비 세 가지 주요 혁신을 이뤘다. 첫째, 다국어 표현의 자연스러움이 크게 향상됐다. 둘째, 음색 복제 정확도가 높아져 원본에 더욱 가까워졌다. 셋째, 지원 언어가 40개로 확대되어 글로벌 서비스 범위가 넓어졌다.
현재 Speech 2.5는 MiniMax 오픈 플랫폼(https://minimaxi.com/platform_overview)과 MiniMax Audio 공식 웹사이트(https://minimaxi.com/audio)를 통해 전 세계적으로 서비스 되고 있다. 사용자는 원하는 음색을 선택하고 텍스트를 입력하거나 파일을 업로드하기만 하면 원클릭으로 필요한 오디오를 생성할 수 있다.

다국어 자연 표현 구현
Speech 2.5는 생성 오디오의 유사도와 자연스러운 운율을 크게 개선했다. 글자 오류율을 낮추고 AI가 생성하는 비즈니스 회의, 일상 대화, 영어 팟캐스트의 기계적인 느낌을 현저히 줄였다.
실제 테스트 결과, 이 모델은 음성에 장면 분위기 음향을 추가할 수 있다. 예를 들어 미국 여고생이 라디오에서 연설하는 상황을 연출할 수 있으며, 생성된 음성은 단순히 텍스트를 읽는 수준을 넘어 원어민 수준의 자연스러운 휴지, 억양을 구현한다.
셰익스피어의 햄릿에서 복수 맹세를 하는 장면이나 열정적인 스페인어 스포츠 해설 등 다양한 상황 별 음성 생성이 가능하다. 특히 각 언어 별 고유한 발음 특성과 문화적 뉘앙스까지 정확히 구현하는 점이 주목할 만하다.
언어 간 음색 복제 기술
Speech 2.5의 가장 혁신적인 기능 중 하나는 언어 간 음색 복제 능력이다. 같은 언어 내 다른 지역의 억양을 보존할 수 있을 뿐만 아니라, 특정 연령대의 음성 특징까지 유지한다. 사용자는 자신이 원하는 음색을 자유롭게 선택할 수 있다.
실제 테스트에서는 패권적인 CEO의 음성으로 중국 드라마 ‘후궁견환전’의 황제 대사를 말하거나, 영국 여왕 특유의 발음으로 Speech 2.5를 소개하는 등 다양한 시나리오가 가능했다. 휴지, 리듬, 발음 처리까지 모두 정통 ‘여왕 억양’을 유지했다.
언어 간 복제도 가능하다. 한국어와 영어를 오가면서도 동일한 음색의 특징을 유지하거나, 이탈리아어와 영어 사이를 전환하면서도 억양의 세부적인 특색을 보존한다. 이는 글로벌 콘텐츠 제작에서 일관된 브랜드 음성을 유지하는 데 매우 유용한 기능이다.
40개 언어로 확장된 글로벌 지원
Speech 2.5는 불가리아어, 덴마크어, 히브리어, 말레이어, 페르시아어, 슬로바키아어 등 여러 소수 언어를 새로 추가하여 총 40개 언어를 지원한다. 이로써 크로스보더 이커머스, 해외 고객 서비스, 현지화 마케팅 등에서 글로벌 콘텐츠를 원클릭으로 제작할 수 있게 됐다.
말레이어의 “Selamat datang, semoga hari anda indah”나 히브리어 문장까지 자연스럽게 발음하며, 각 언어의 고유한 음성학적 특징을 정확히 구현한다. 이는 글로벌 진출을 모색하는 기업들에게 강력한 도구가 될 것으로 예상된다.
주요 플랫폼들의 도입 확산
MiniMax Speech 음성 모델은 다양한 응용 시나리오에서 활용되고 있다. 다국어 고객 서비스, 국제 광고 더빙, 국제 교육, 크로스보더 이커머스 등이 주요 적용 분야다.
현재 MiniMax Speech는 전 세계적으로 광범위하게 채택되고 있다. 해외에서는 Vapi, Pipecat 등 에이전트 플랫폼이 MiniMax Speech를 활용해 서비스를 제공하고 있으며, Hedra, Icon, Syllaby 등 주요 AI 애플리케이션들도 이미 MiniMax Speech를 도입했다.
중국 내에서는 가오투 교육(高途教育), 히말라야(喜马拉雅), 넷이즈(网易), 로키드 안경(Rokid眼镜) 등 주요 플랫폼과 제품들이 MiniMax Speech를 선택했다. 이는 MiniMax의 기술력이 시장에서 인정받고 있음을 보여주는 사례다.
AI 오디오 분야에서의 지속적 혁신
MiniMax는 AI 오디오 분야에서 이미 입지를 다진 기업이다. 올해 5월 출시한 Speech 02는 Artificial Analysis와 Hugging Face TTS Arena 두 음성 벤치마크 평가에서 OpenAI, ElevenLabs 등 유명 모델들을 제치고 1위를 차지했다.
Speech 2.5는 Speech 02의 진화 버전으로 볼 수 있다. 전작의 장점을 계승하면서 다국어 지원, 음색 복제, 언어 커버리지 측면에서 더욱 심화된 최적화를 이뤄냈다. 특히 40개 언어 지원은 글로벌 시장 진출을 노리는 중국 AI 기업들의 전략을 잘 보여준다.
현재 수많은 기업과 연구 기관들이 AI 오디오 트랙에 진출하면서 경쟁이 갈수록 치열해지고 있다. MiniMax Speech 2.5의 출시는 이 시장에 새로운 활력을 불어넣었다. 특히 실제 인간 수준의 음성 품질과 40개 언어 지원 능력은 글로벌 AI 음성 합성 시장에서 중국 기술의 경쟁력을 다시 한 번 입증했다.
앞으로 MiniMax가 어떤 추가 혁신을 선보일지, 그리고 이런 고품질 AI 음성 기술이 교육, 엔터테인먼트, 비즈니스 등 다양한 분야에서 어떤 변화를 이끌어낼지 주목된다.