바이두, 시각 이해 모델 QIANFAN-VL 오픈소스 공개

2025년 09월 28일

QIANFAN-VL

중국 IT 대기업 바이두(百度)가 전격적으로 차세대 시각 이해 모델 ‘QIANFAN-VL’을 완전 오픈소스로 공개했다고 발표했다. 이번에 공개된 QIANFAN-VL은 3B, 8B, 70B 세 가지 규모의 모델로 구성되어 있으며, 기업급 멀티모달 응용 시나리오에 최적화된 시각 이해 대형 모델이다.

QIANFAN-VL

QIANFAN-VL의 핵심 특징과 성능

QIANFAN-VL 시리즈는 바이두 인텔리전트 클라우드 천범(千帆) 모델 연구개발팀이 오픈소스 모델을 기반으로 개발했으며, 바이두가 자체 개발한 쿤룬칩(昆仑芯) P800에서 전체 프로세스 컴퓨팅 작업을 완료했다. 쿤룬칩 P800은 강력한 컴퓨팅 성능을 제공하여 모델이 대용량 데이터와 복잡한 알고리즘을 효율적으로 처리할 수 있도록 하며, 단일 작업에서 5,000개 카드 규모의 병렬 컴퓨팅을 지원한다.

QIANFAN-VL 모델의 가장 주목할 만한 특징은 세 가지로 요약할 수 있다.

첫째, 다양한 규모의 모델을 제공하여 서로 다른 시나리오의 요구사항을 충족한다. 3B, 8B, 70B 세 가지 사양의 모델을 제공함으로써 다양한 규모의 기업과 개발자들이 적합한 솔루션을 찾을 수 있도록 했다.

둘째, 사고 추론 능력을 제공한다. 8B와 70B 모델은 특수 토큰을 통해 사고 사슬(Chain of Thought) 능력을 활성화할 수 있으며, 복잡한 차트 이해, 시각적 추론, 수학 문제 해결 등 다양한 시나리오를 커버한다.

셋째, OCR과 문서 이해 능력이 강화되었다. QIANFAN-VL은 OCR 전체 시나리오 인식과 복잡한 레이아웃의 문서 이해라는 두 가지 특색 있는 능력을 주요 기능으로 내세우고 있으며, 여러 벤치마크 테스트에서 우수한 성과를 보여 기업급 응용을 위한 고정밀 시각 이해 솔루션을 제공한다.

벤치마크 테스트에서 입증된 우수한 성능

일반적인 능력 벤치마크 테스트에서 QIANFAN-VL 시리즈 모델(3B, 8B, 70B)은 현저한 핵심 우위를 보여주었다. 시각 이해부터 전문 영역 질의응답까지, 모델 성능은 파라미터 규모가 증가함에 따라 현저히 향상되어 우수한 스케일링 트렌드를 보여준다.

ScienceQA와 같은 전문 질의응답 테스트에서 정확도 표현이 뛰어났으며, RefCOCO와 같은 멀티모달 작업에서는 객체 인식 및 연관 능력이 우수했다. 동시에 각종 일반 벤치마크 테스트에서도 주류 모델과 비교해 전체적으로 뛰어난 성과를 보여, 시각 이해 일반 능력에서의 우수한 실력을 충분히 과시했다.

OCR과 문서 이해 영역에서 QIANFAN-VL 시리즈 모델은 탁월한 실력을 보여준다. 한편으로는 OCR 전체 시나리오 인식 능력을 갖추고 있어, 손글씨, 수학 공식, 자연 장면 텍스트를 정확히 인식할 수 있으며, 카드, 증명서, 티켓, 전표 정보에 대한 구조화된 추출도 가능하다. 다른 한편으로는 복잡한 레이아웃의 문서 이해 능력이 뛰어나, 레이아웃 요소를 자동으로 분석하고 테이블, 차트를 정확히 해석하여 문서 지능형 질의응답과 구조화된 해석을 실현할 수 있다.

수학적 추론과 복잡한 데이터 처리 능력

QIANFAN-VL 시리즈의 8B와 70B 모델은 사고 추론 능력 측면에서 탁월한 성과를 보여준다. 이들은 특수 토큰을 통해 사고 사슬 능력을 활성화하는 것을 지원하며, 복잡한 차트 이해, 시각적 추론, 수학 문제 해결 등 다양한 시나리오를 커버할 수 있다.

이러한 작업들은 시각 정보와 외부 지식을 결합한 조합 추론이 필요하며, 모델은 대량의 시각 및 텍스트 추론 데이터를 융합하여 후처리 훈련에 사용했다. 벤치마크 성과를 보면, 추론 계산 관련 작업의 효과가 현저히 향상되었다.

핵심 추론 응용 시나리오에서, 복잡한 차트 이해와 추론 측면에서는 복잡한 차트에서 핵심 정보를 추출하여 데이터 분석, 트렌드 예측, 연관 추론 및 통계 계산을 수행할 수 있다. 수학 문제 해결과 시각적 추론 영역에서는 기하학적 추론, 공식 인식, 단계별 해결 및 논리적 추론을 실현할 수 있다.

혁신적인 기술 아키텍처와 훈련 방법론

QIANFAN-VL은 선진적인 멀티모달 아키텍처 설계를 통해 지속적인 사전 훈련과 세 가지 기술 혁신에 의존하여 영역 강화된 일반 시각-언어 능력을 실현했다.

능력 강화 훈련 방안에서는 혁신적인 4단계 훈련 전략을 채택하여, 일반 능력의 기초를 유지하면서 영역 능력의 현저한 향상을 실현했다. 고정밀 데이터 합성 파이프라인을 구축하여 멀티모달 작업을 위한 대규모 데이터 합성 파이프라인을 만들었으며, 문서 인식, 수학 문제 해결, 차트 이해, 테이블 인식, 공식 인식, 자연 장면 OCR 등 핵심 작업을 포함한다.

쿤룬칩이 구동하는 대형 모델 고효율 컴퓨팅 시스템도 주목할 만하다. 바이두 자체 개발한 쿤룬칩 P800 칩을 기반으로, 업계 선도적인 초대규모(5,000개 카드) 분산 컴퓨팅 시스템을 구축했으며, 혁신적인 병렬 전략과 연산자 최적화를 통해 대형 모델 작업의 처리 성능과 운영 효율성을 현저히 향상시켰다.

다양한 실제 응용 사례

QIANFAN-VL은 OCR 인식, 수학적 추론, 문서 이해 등 다양한 시나리오에서 탁월한 성능을 보여준다. OCR 인식 장면에서는 손글씨, 인쇄체, 수학 공식, 자연 장면의 텍스트 등을 정확히 인식할 수 있으며, 카드나 증명서와 같은 구조화된 정보 추출도 가능하다.

수학적 추론 장면에서는 복잡한 기하학 문제나 대수 문제를 단계별로 분석하고 해결할 수 있으며, 시각적 정보와 수학적 지식을 결합한 추론 능력을 보여준다. 문서 이해 장면에서는 복잡한 재무제표나 기술 문서의 구조를 파악하고, 테이블 형태의 데이터를 정확히 추출하여 구조화된 정보로 변환할 수 있다.

오픈소스 공개와 향후 전망

QIANFAN-VL 시리즈 모델의 오픈소스 공개는 바이두 인텔리전트 클라우드 천범에게 “모델을 실제 생산력 시나리오에 투입하는” 첫 걸음과 같다고 평가된다. 바이두는 현재부터 10월 10일까지 바이두 인텔리전트 클라우드 천범 플랫폼에서 8B, 70B 모델을 무료로 체험할 수 있다고 발표했다.

모델은 GitHub, Hugging Face 등 다양한 플랫폼을 통해 공개되며, 상세한 기술 보고서와 함께 제공된다. 바이두는 향후 기술에 대한 집요한 추구와 응용 시나리오에 대한 깊이 있는 통찰을 바탕으로, 지속적으로 새로운 산업급 모델을 출시하여 AI 기술의 각 업계 적용을 전방위적으로 지원할 것이라고 표명했다.

이번 QIANFAN-VL의 공개는 중국 AI 기업들의 오픈소스 전략이 더욱 적극적으로 변화하고 있음을 보여주는 사례로, 글로벌 AI 생태계에서 중국 기업들의 기술력과 영향력이 확대되고 있음을 시사한다.

[모델 블로그]
https://baidubce.github.io/Qianfan-VL

[GitHub]
https://github.com/baidubce/Qianfan-VL

[Hugging Face]
https://huggingface.co/baidu/Qianfan-VL-70B
https://huggingface.co/baidu/Qianfan-VL-8B
https://huggingface.co/baidu/Qianfan-VL-3B

댓글 남기기