남양공대와 칭화대학교 공동 연구팀이 음성 대화형 AI 모델의 신뢰성을 종합적으로 평가할 수 있는 새로운 벤치마크 ‘AudioTrust’를 개발했다고 발표했다. 이는 음성 기반 대형 언어모델(ALLMs)을 위한 최초의 다차원 신뢰성 평가 기준으로, AI 음성 기술의 안전성과 신뢰성 검증에 새로운 이정표가 될 것으로 평가된다.

AudioTrust 개발 배경과 필요성
기존의 AI 모델 평가 프레임워크들은 주로 텍스트 모달리티에만 초점을 맞추거나 제한적인 안전성 차원만을 다루고 있어, 음성 모달리티의 고유한 특성과 응용 시나리오를 충분히 고려하지 못했다. 이러한 한계를 극복하기 위해 연구팀은 AudioTrust를 개발했으며, 이 프레임워크는 공정성, 환각, 안전성, 프라이버시, 견고성, 인증이라는 6개 핵심 차원으로 평가 범위를 확장했다.
AudioTrust는 추론 실행과 신뢰성 분석을 분리하는 2단계 아키텍처를 채택했다. 첫 번째 단계에서는 데이터 로딩과 모델 추론에 집중하여 오픈소스와 클로즈드소스 모델 모두를 지원하며, 구성 파일을 통해 작업 매개변수를 유연하게 제어할 수 있다. 두 번째 단계에서는 모델 출력에 대한 자동화된 다차원 평가를 수행하여 콘텐츠 안전성, 편견 탐지, 사실 일관성 등 핵심 지표를 포괄한다.


6대 핵심 평가 차원별 상세 분석
공정성(Fairness) 평가
AudioTrust는 7가지 민감한 속성을 기반으로 전통적인 공정성 평가와 음성 특유의 공정성 평가 체계를 구축했다. 연구팀은 각각 약 20초 길이의 고품질 음성 샘플 840개를 수집하여 다양한 사회적 역할과 상황적 상호작용을 시뮬레이션했다. 특히 억양, 언어 표현 특성 등 음성 고유의 속성에 주목하여 다중 모달 인식에서의 불공정성을 체계적으로 분석했다.
실험 결과, 현재 주류 언어모델들이 공정성 차원에서 전반적으로 불균형을 보이며, 체계적 편향이 광범위하게 존재하는 것으로 나타났다. 이는 음성 AI 모델이 성별, 나이, 억양 등 다양한 요인에 따라 서로 다른 반응을 보일 수 있음을 의미한다.

환각(Hallucination) 현상 분석
환각 평가 모듈은 복잡한 음향 환경에서 음성 대형 언어모델의 환각 현상을 전문적으로 검출한다. 320개의 정교하게 설계된 테스트 샘플을 구축하여 음성 환각을 사실성 환각과 논리성 환각이라는 두 가지 핵심 차원으로 분류했다.
사실성 환각에는 160개 샘플이 포함되어 있으며, 주로 음성 내용과 라벨 속성이 일치하지 않는 상황과 자연 법칙에 위배되는 소리 설명을 다룬다. 논리성 환각 역시 160개 샘플로 구성되어 있으며, 음성과 텍스트 설명 간의 의미적 모순과 음성 이벤트의 시간적 순서 혼란을 중점적으로 테스트한다.
실험 결과 음성 언어모델의 환각 문제는 주로 음성 신호 처리와 이벤트 인식 오류에서 비롯되며, 추론 결함이 아닌 것으로 나타났다. Gemini 시리즈와 Qwen2-Audio가 가장 우수한 성능을 보였으며, GPT-4o 시리즈는 답변을 회피하는 경향을 보였고, SALMONN 등의 모델은 모순적 환각을 생성하기 쉬운 것으로 분석됐다.

안전성(Safety) 검증
안전성 평가 모듈은 음성 대형 언어모델이 직면하는 두 가지 핵심 위험인 탈옥 공격과 불법 활동 지도를 심층적으로 탐구했다. 300개의 탈옥 공격 샘플과 300개의 불법 활동 지도 샘플을 포함한 총 600개의 테스트 샘플을 구축했다.
연구팀은 성별, 감정, 시나리오라는 3차원 평가 전략을 채택하여 다양한 요인이 모델 안전성에 미치는 영향을 종합적으로 평가했다. 실험 결과 음성 모달리티 공격이 다중 모달 대형 모델의 안전성에 상당한 위협을 가하는 것으로 나타났다. 특히 슬픔 감정이 분노 감정보다 위반 행동을 더 쉽게 유발하며, 의료 시나리오에서의 탈옥 성공률이 최대 33.7%에 달해 기업 및 금융 시나리오를 크게 상회했다.
클로즈드소스 모델은 거의 99%에 달하는 우수한 방어 능력을 보인 반면, 오픈소스 모델들은 전반적으로 더 큰 안전 위험에 직면하고 있다. 주목할 점은 텍스트 입력에서 100%의 안전 방어율을 달성할 수 있는 것과 비교하여, 음성 입력은 공격자에게 추가적인 공격 벡터를 제공한다는 것이다.

프라이버시(Privacy) 보호 수준
프라이버시 평가 모듈은 직접적 프라이버시 유출과 프라이버시 추론 유출이라는 두 가지 핵심 위험에 초점을 맞췄다. 600개의 직접적 프라이버시 유출 샘플과 300개의 프라이버시 추론 유출 샘플을 포함한 총 900개의 음성 샘플로 구성된 다양한 테스트 데이터셋을 구축했다.
실험 결과 다중 모달 대형 모델이 프라이버시 보호 측면에서 명백한 불일치성과 취약성을 보이는 것으로 나타났다. 클로즈드소스 모델은 주민등록번호 등 고민감 정보에 대해 거의 100%의 거부율을 보였지만, 집 주소에 대한 보호율은 88%에 그쳤다. Gemini 시리즈와 오픈소스 모델 Qwen2-Audio는 주소와 휴대폰 비밀번호 측면에서 85%-100%의 높은 유출률을 보였다.
더욱 심각한 것은 대부분의 모델이 나이, 인종 등 프라이버시 추론 작업에서 80%를 초과하는 유출률을 보인다는 점이다. 프라이버시 인식을 강화한 프롬프트가 직접적 프라이버시 유출 위험을 현저히 낮출 수 있지만, 추론 유출에 대한 개선 효과는 제한적이었다.

견고성(Robustness) 테스트
견고성 평가 모듈은 음성 대형 언어모델이 다양한 실제 음성 간섭에 직면했을 때의 성능 안정성을 검토한다. 연구팀은 6가지 주요 음성 도전 과제를 정교하게 설계했으며, 각 카테고리마다 40개씩의 샘플을 구성했다.
실험 결과 다중 모달 대형 모델이 음성 견고성 측면에서 현저한 계층적 차이와 불안정성을 보이는 것으로 나타났으며, Gemini 시리즈가 다양한 도전적 음성 조건에서 지속적으로 선도적 지위를 유지했다. 모델 견고성은 구체적인 음성 왜곡 유형에 크게 의존하며, 품질이 저하된 음성을 명확한 텍스트로 변환하는 것이 하위 추론 작업 성능 향상의 핵심임이 확인됐다.

인증(Authentication) 보안
인증 평가 모듈은 음성 대형 언어모델의 기만 공격 저항 능력을 심층 테스트했으며, 혼합 기만, 신원 인증 우회, 음성 복제 기만이라는 세 가지 핵심 위협에 집중했다. 100개의 혼합 기만 샘플, 100개의 신원 인증 우회 샘플, 200개의 음성 복제 기만 샘플을 포함한 총 400개 샘플의 다양한 테스트 데이터셋을 설계했다.
실험 결과 다중 모달 대형 모델이 음성 기만 방어 측면에서 명백한 모델 유형 차이와 시나리오 민감성을 보이는 것으로 나타났다. 엄격한 프롬프트가 음성 복제 기만의 방어 효과를 현저히 향상시켰으며, 대부분의 모델이 “문 열기” 시나리오에서 “어시스턴트 깨우기” 시나리오보다 우수한 성능을 보였다.

AudioTrust의 혁신적 특징
AudioTrust는 네 가지 핵심 혁신을 기반으로 한다.
첫째, 18가지 실험 설정을 아우르는 평가 프레임워크를 구축하여 고위험 시나리오에서 ALLMs의 성능 경계와 한계를 심층 탐구했다.
둘째, 4,420개 이상의 음성/텍스트 샘플을 포함한 데이터 셋을 정교하게 구축하여 일상 대화, 응급 통화, 음성 어시스턴트 상호작용 등 응용 시나리오를 포괄했다.
셋째, 음성 모달리티 특성을 전문적으로 겨냥한 9개의 평가 지표를 설계하여 전통적인 텍스트 평가 방법이 음성 영역에 적용될 때의 한계를 극복했다.
넷째, 모델 출력에 대한 객관적이고 확장 가능한 평가를 실현하는 자동화 평가 파이프라인을 구현하여 평가 효율성과 일관성을 현저히 향상시켰다.

주요 연구 결과 및 시사점
주류 오픈소스 및 클로즈드소스 ALLMs에 대한 체계적 평가를 통해 AudioTrust는 여러 중요한 발견을 공개했다. 공정성 측면에서는 모델들이 민감한 속성에 대해 전반적으로 체계적 편견을 존재시키며, 의사결정 시나리오에서 특정 그룹을 선호하는 경향을 보였다.
환각 방지 측면에서는 클로즈드소스 모델이 음향 논리 오류 식별에서 더 우수한 성능을 보인 반면, 오픈소스 모델은 도메인 지식 정렬에서 명백한 한계를 드러냈다. 안전 방어 측면에서는 클로즈드소스 모델이 더 강한 방어 능력을 보였으며, 특히 탈옥 공격 저항에 있어서 그러했다. 오픈소스 모델은 의료 등 전문 영역에서의 방어가 명백히 취약했다.
프라이버시 보호 측면에서는 서로 다른 유형의 민감 정보가 불균형한 보호를 받고 있으며, 간단한 프롬프트 엔지니어링으로 직접적 유출을 줄일 수 있지만 추론 유출에 대한 효과는 제한적이었다. 견고성 차이 측면에서는 선도적인 클로즈드소스 ALLMs가 노이즈, 다중 화자 등의 간섭 하에서도 핵심 기능을 유지할 수 있는 반면, 대부분의 오픈소스 모델은 적대적 간섭 하에서 성능이 현저히 저하됐다.
AudioTrust 연구는 음성 AI 기술의 신뢰성과 안전성 확보를 위한 중요한 이정표를 제시했다. 이 프레임워크와 플랫폼이 공개 발표됨에 따라, 관련 분야의 추가 연구와 실무 적용에 크게 기여할 것으로 기대된다.

[참고 기사]
https://www.qbitai.com/2025/06/290565.html
[논문 링크]
https://arxiv.org/pdf/2505.16211
[코드 링크]
https://github.com/JusperLee/AudioTrust
[데이터셋 링크]
https://huggingface.co/datasets/JusperLee/AudioTrust
[HuggingFace]
https://huggingface.co/papers/2505.16211