샤오미가 8월 4일 오디오 이해 대모델 ‘MiDashengLM-7B’를 공식 오픈소스로 공개했다고 발표했다. 이번에 공개된 모델은 22개 공개 평가에서 멀티모달 대모델 최고 성능(SOTA)을 기록하며, 단일 샘플 추론에서 첫 토큰 지연시간(TTFT)이 업계 선진 모델 대비 1/4 수준에 불과한 것으로 나타났다. 또한 동일한 메모리 환경에서 데이터 처리량 효율성이 업계 선진 모델보다 20배 이상 높다는 점이 주목 받고 있다.

샤오미 다셩, 통합 오디오 이해 기술로 22개 벤치마크 최고 성능 달성
MiDashengLM-7B는 샤오미 다셩(Xiaomi Dasheng)을 오디오 인코더로, Qwen2.5-Omni-7B Thinker를 자기회귀 디코더로 사용하여 구축되었다. 범용 오디오 설명 훈련 전략을 통해 음성, 환경 소음, 음악에 대한 통합적 이해를 실현했다는 것이 샤오미의 설명이다.
이번 오픈소스 모델은 2024년 샤오미가 처음 발표한 샤오미 다셩 오디오 기반 모델의 확장 버전으로, 현재 샤오미 스마트홈과 자동차 캐빈 등 분야에서 30여 개의 실제 적용 사례를 보유하고 있다. 샤오미는 오디오 이해가 전체 시나리오 지능형 생태계 구축의 핵심 영역이라며, MiDashengLM이 음성, 환경음, 음악을 통합적으로 이해하는 크로스 도메인 능력을 통해 사용자 주변에서 발생하는 상황을 파악할 뿐만 아니라 이러한 상황의 숨겨진 의미를 분석하고 발견할 수 있다고 강조했다.
특히 주목할 점은 MiDashengLM의 훈련 데이터가 100% 공개 데이터로 구성되어 있다는 것이다. 이는 연구 투명성과 재현 가능성을 높이는 동시에, 오픈소스 커뮤니티의 지속적인 발전에 기여할 수 있는 기반을 마련했다는 의미로 해석된다.
다양한 오디오 작업에서 경쟁 모델 대비 우수한 성능 입증
MiDashengLM-7B는 오디오 설명, 소리 이해, 오디오 질의응답 작업에서 뚜렷한 우위를 보였다. 오디오 설명 작업에서는 Qwen, Kimi와 같은 동급 7B 모델보다 강력한 성능을 나타냈으며, 소리 이해 작업에서는 FMA, VoxCeleb-Gender 항목을 제외하고 Qwen 7B 모델을 앞섰다. Kimi 7B 모델과 비교해서는 VoxCeleb-Gender 항목에서만 소폭 뒤처졌을 뿐 전반적으로 우수한 결과를 보여주었다.
음성 인식 작업에서 MiDashengLM-7B는 GigaSpeech 2에서 주요 우위를 보였지만, 다른 두 테스트에서는 Qwen과 Kimi가 일정한 우위를 점했다. 그럼에도 불구하고 종합적인 오디오 문제 해결 능력에서는 경쟁 모델들을 크게 앞서는 것으로 평가되었다.
샤오미 다셩 오디오 인코더는 MiDashengLM의 오디오 이해 능력의 중요한 원천이다. 인코더의 범용 능력을 평가하는 X-ARES 벤치마크에서 샤오미 다셩은 Qwen2.5-Omni, Kimi-Audio 등 모델의 오디오 인코더로 사용되는 Whisper보다 여러 핵심 작업에서 우수한 성능을 보였다. 소리 이해 외에도 샤오미 다셩은 음성 노이즈 제거, 추출, 향상 등의 오디오 생성 작업에도 활용될 수 있다.
추론 효율성 혁신으로 실용성 크게 향상
MiDashengLM의 훈련과 추론 효율성은 또 다른 주요 장점이다. 단일 샘플 추론의 경우, 즉 배치 사이즈가 1일 때 MiDashengLM의 첫 번째 토큰 예측 시간(TTFT)은 Qwen2.5-Omni-7B의 1/4에 불과하다.
배치 처리 시에는 더욱 놀라운 성능을 보여준다. 80GB GPU에서 30초 오디오를 처리하고 100개 토큰을 생성하는 테스트에서 MiDashengLM은 배치 사이즈를 512로 설정할 수 있는 반면, Qwen2.5-omni-7B는 배치 사이즈 16에서도 메모리 오버플로우(OOM)가 발생했다. 실제 배포에서 MiDashengLM은 동일한 하드웨어 조건에서 더 많은 동시 요청량을 지원할 수 있어 계산 비용을 크게 절감할 수 있다.
이러한 효율성 향상의 배경에는 샤오미 다셩 아키텍처를 기반으로 한 최적화가 있다. 오디오 이해 핵심 성능 지표를 기본적으로 유지하면서 오디오 인코더 설계를 최적화하여 출력 프레임 레이트를 Qwen2.5-Omni의 25Hz에서 5Hz로 80% 감소시켰다. 이를 통해 계산 부하를 줄이고 추론 효율성 향상을 실현했다.
혁신적인 훈련 패러다임으로 전역 의미 이해 강화
MiDashengLM은 범용 오디오 설명 정렬 패러다임을 채택하여 기존 방식의 한계를 극복했다. 기존의 ASR 전사 데이터 정렬 방식은 음성 내용에만 집중하여 환경음과 음악 정보를 잃어버리고, 화자의 감정이나 공간 잔향 등 핵심 음향 특징을 포착할 수 없다는 한계가 있었다. 반면 범용 설명 정렬 전략은 비단조적 전역 의미 매핑을 통해 모델이 오디오 장면의 심층 의미 연관성을 학습하도록 한다.
이 방법은 노이즈나 비음성 콘텐츠를 포함한 거의 모든 데이터를 사용할 수 있는 반면, ASR 전사 기반 방법은 환경음이나 음악 같은 비음성 데이터를 폐기하여 데이터 활용률이 낮다. ASR 기반 정렬 방법은 ACAV100M-Speech 데이터셋에서 잠재적으로 유용한 데이터의 90%를 유실 한다는 문제가 있다.
MiDashengLM의 훈련 데이터는 멀티 전문가 분석 파이프라인을 통해 생성된다. 먼저 원본 오디오에 대해 다양한 전문가 모델을 사용하여 음성, 인성, 음악, 환경 음향학의 세밀한 라벨링을 수행한다. 여기에는 다셩-CED 모델을 사용하여 2초 단위로 소리 이벤트를 예측하는 것이 포함되며, 이후 DeepSeek-R1 추론 대모델을 통해 통합 설명을 합성한다.
완전한 오픈소스로 투명성과 재현성 확보
이번 MiDashengLM의 훈련 데이터는 100% 공개 데이터셋에서 나온 것으로, 5개 카테고리 110만 시간의 자원을 포함한다. 여기에는 음성 인식, 환경음, 음악 이해, 음성 부언어, 질의 응답 작업 등 다양한 영역이 포함된다.
MiDashengLM은 77개 데이터 소스의 상세한 배합 비율을 완전히 공개했으며, 기술 보고서에서는 오디오 인코더 사전 훈련부터 지시 미세조정까지의 전체 프로세스를 공개했다. 이러한 완전한 공개 접근법은 연구 커뮤니티의 투명성을 높이고 연구 결과의 재현 가능성을 보장하는 중요한 의미를 가진다.
공식 정보에 따르면 샤오미는 이미 샤오미 다셩 시리즈 모델의 계산 효율성 업그레이드를 시작했으며, 단말 기기에서 오프라인 배포가 가능한 솔루션을 모색하고 있다. 이는 향후 샤오미의 다양한 스마트 기기에서 더욱 향상된 AI 음성 상호작용 경험을 제공할 수 있는 기반을 마련할 것으로 예상된다.
샤오미의 이번 MiDashengLM-7B 오픈소스 공개는 멀티모달 AI 기술 발전에 중요한 기여를 할 것으로 평가된다. 자연어 상호작용 경험에 영향을 미치는 핵심 기술 중 하나인 오디오 이해 기술의 발전은 스마트홈, 스마트카, 스마트폰 등 다양한 제품의 AI 상호작용 경험 향상에 도움이 될 것으로 기대된다. 특히 차량 제조에 중점을 둔 전략적 전환 이후 AI 대모델 분야에서의 발언이 많지 않았던 샤오미가 멀티모달 영역에서 어떤 추가적인 모델 혁신을 가져올지 귀추가 주목된다.