바이트댄스, GPT-4o급 이미지 AI 모델 ‘BAGEL’ 오픈소스 공개

2025년 05월 23일

bytedance-bagel

바이트댄스가 최근 GPT-4o 수준의 이미지 생성 능력오픈소스로 공개하며 AI 업계에 또 다른 파장을 일으키고 있다. 이번에 공개된 BAGEL(다중모달 모델)은 ‘대통합’ 컨셉을 내세우며 이미지 추론, 편집, 3D 생성 등 모든 기능을 하나의 모델에 집약했다.

GPT-4o급 성능의 통합 다중모달 모델

BAGEL 모델의 가장 주목할 만한 특징은 활성 매개변수가 7B(총 14B)에 불과함에도 불구하고 이미지 이해, 생성, 편집 등 여러 분야에서 최고 수준의 성능을 달성했다는 점이다. 이는 Stable Diffusion 3, FLUX.1 같은 최고급 오픈소스 모델들과 GPT-4o, Gemini 2.0 같은 상용 모델들을 뛰어넘거나 비견하는 수준이다.

바이트댄스의 이번 오픈소스 발표는 Hugging Face 트렌드 차트에 즉시 등장하며 큰 화제를 모았다. 특히 OpenAI 연구원조차 공개적으로 바이트댄스 Seed 팀을 최고급 연구실로 인정하며 찬사를 보냈다. 한 네티즌은 “바이트댄스가 한 세대 앞서나가는 것 같다”며 감탄을 표했다.

혁신적인 다중모달 기능 구현

BAGEL 모델은 기본적인 이미지 추론 능력부터 시작한다. 접힌 천 조각 이미지를 보고 펼쳐진 모습을 상상해내거나, 복잡한 시각적 추론 문제를 해결할 수 있다. 모델은 생성 전에 자동으로 추론 과정을 거치며 실행 가능한 계획을 수립한다.

더욱 인상적인 것은 무결점 다중턴 대화 지원 기능이다. 사용자가 텍스트 프롬프트에 따라 이미지를 생성하도록 요청한 후, 연이어 해당 인물의 피규어 형태 이미지 생성과 마케팅 슬로건 제안까지 요구하면 BAGEL이 완벽하게 처리해낸다. 이러한 기능은 기존의 단편적인 AI 도구들과는 차원이 다른 통합적 경험을 제공한다.

복잡한 이미지 편집 분야에서도 BAGEL의 실력은 탁월하다. 원클릭 메이크업 기능은 실제 화장을 이해하고 적용하는 수준까지 도달했다. 예를 들어, 인물의 얼굴에 자연스러운 메이크업을 적용하거나 표정을 변환하는 작업을 수행할 때, 모델은 단순히 픽셀을 조작하는 것이 아니라 실제 화장의 원리와 얼굴 구조를 이해한 상태에서 편집을 진행한다.

‘세계 모델링’ 능력까지 갖춘 차세대 AI

BAGEL이 기존 이미지 편집 도구들과 차별화되는 점은 다중 시점 합성과 내비게이션 등 ‘세계 모델링’ 능력이다. 피규어가 들어있는 상자를 360도 회전하며 관찰하거나, 단일 이미지에서 시작해 점진적으로 시점을 이동하며 골목길 안으로 들어가는 몰입형 경험을 제공한다. 이는 전통적인 2D 이미지 생성을 넘어서 3차원 공간에 대한 이해와 구현 능력을 보여주는 것이다.

이러한 세계 모델링 기능은 향후 메타버스, VR/AR 콘텐츠 제작, 게임 개발 등 다양한 분야에서 혁신적인 응용 가능성을 제시한다. 단순히 정적인 이미지를 생성하는 것을 넘어서 동적이고 상호작용 가능한 가상 환경을 구축할 수 있는 기반 기술을 제공하는 것이다.

MoT 아키텍처의 기술적 혁신

BAGEL 모델MoT(Mixture-of-Transformer-Experts) 아키텍처를 채택했다. 이 구조는 두 개의 Transformer 전문가로 구성되는데, 하나는 다중모달 이해에, 다른 하나는 다중모달 생성에 특화되어 있다. 또한 픽셀 레벨과 의미 레벨 특징을 각각 포착하는 두 개의 독립적인 비전 인코더를 활용한다.

픽셀 레벨 인코더는 이미지의 색상, 질감, 세부 디테일 등 저수준 특징에 집중하는 반면, 의미 레벨 인코더는 객체의 종류, 장면의 맥락, 공간적 관계 등 고수준 의미 정보를 처리한다. 이러한 이중 인코더 구조는 BAGEL이 이미지의 미세한 디테일과 전체적인 의미를 동시에 파악할 수 있게 해준다.

전체 프레임워크는 “다음 토큰 그룹 예측 패러다임”을 따르며, 기존의 다중모달 입력을 바탕으로 후속 토큰을 예측하는 학습을 통해 다중모달 데이터에 대한 이해와 생성 능력을 지속적으로 최적화한다. BAGEL 기본 모델은 Qwen2.5-7B-Instruct와 siglip-so400m-14-384-flash-attn2 모델을 파인튜닝하여 구축되었으며, FLUX.1-schnell VAE 모델을 활용했다.

‘창발 능력’의 새로운 정의

연구팀은 모델 훈련 과정에서 중요한 발견을 했다. 데이터 규모와 모델 매개변수의 동시 확장에 따라 BAGEL 모델에서 일종의 “창발 능력”이 나타났다는 것이다. 다중모달 이해와 생성 능력이 먼저 출현하고, 이어서 기본 편집 능력이, 마지막으로 복잡한 지능형 편집 능력이 후기에 나타나는 패턴을 보였다.

논문에서는 통합 다중모달 기초 모델의 맥락에서 창발 능력을 새롭게 정의했다: “특정 능력이 초기 훈련 단계에서는 나타나지 않다가 후속 사전 훈련에서 출현할 때 이를 창발 능력이라 한다.” 이는 고급 다중모달 추론이 완전한 기초 기술 위에서 점진적으로 형성되는 새로운 패턴을 보여준다.

특히 흥미로운 점은 VAE(변분 자동 인코더)와 ViT(비전 트랜스포머) 특징을 결합할 때 지능형 편집 능력이 현저히 향상된다는 발견이다. 이는 서로 다른 AI 기술들의 유기적 결합이 단순한 성능 향상을 넘어서 새로운 능력의 창발로 이어질 수 있음을 시사한다.

벤치마크에서 입증된 뛰어난 성능

다양한 벤치마크 테스트에서 BAGEL 모델선도적인 이미지 이해, 생성, 편집 능력이 입증되었다. 이미지 이해 작업에서 동일한 활성 매개변수 규모(7B) 조건 하에서 기존 통합 모델인 Janus-Pro를 능가했으며, Qwen2.5-VL, InternVL2.5 등 전용 이해 모델과 비교해도 대부분의 벤치마크에서 우수한 성과를 보였다.

이미지 생성 능력을 평가하는 GenEval과 WISE 테스트에서 BAGEL은 88%의 종합 점수를 기록했다. 이는 전용 생성 모델인 FLUX.1-dev(82%), SD3-Medium(74%)와 통합 모델인 Janus-Pro(80%), MetaQuery-XL(80%)을 모두 앞선 결과다. 이러한 성과는 BAGEL이 단순히 여러 기능을 하나로 묶은 것이 아니라, 각 분야에서 전문 모델들과 경쟁할 수 있는 수준의 성능을 달성했음을 보여준다.

이미지 편집 능력 테스트에서도 BAGEL은 현재 최고 수준의 전용 이미지 편집 모델인 Step1X-Edit과 대등한 성능을 보이며 Gemini 2.0를 능가했다. 특히 복잡한 편집 작업에서의 정확성과 자연스러움 측면에서 기존 모델들을 크게 앞서는 결과를 보였다.

현재 이 모델은 상대적으로 관대한 Apache 2.0 라이선스로 Hugging Face에서 제공되고 있어, 연구자들과 개발자들이 자유롭게 활용할 수 있다. 바이트댄스의 이번 오픈소스 공개는 다중모달 AI 분야의 새로운 이정표가 될 것으로 예상되며, 업계 전반의 기술 발전을 가속화할 것으로 전망된다. 이는 AI 기술의 민주화와 혁신 생태계 구축에 중요한 기여를 할 것으로 보인다.

[참고 기사]
https://www.qbitai.com/2025/05/287561.html

[참고 자료]
프로젝트 홈페이지 : https://bagel-ai.org/
논문 : https://arxiv.org/abs/2505.14683
오픈소스 주소: https://huggingface.co/ByteDance-Seed/BAGEL-7B-MoT
참고 링크:
[1] https://x.com/_akhaliq/status/1925021633657401517
[2] https://x.com/giffmana/status/1925194650266354108