바이트댄스, 확산 언어 모델 'Seed Diffusion Preview' 공개 - 추론 속도 2146토큰/초 달성

바이트댄스의 AI 연구 팀인 Seed가 새로운 확산 언어 모델 ‘Seed Diffusion Preview’를 발표했다. 이 모델은 코드 생성 분야에 특화되어 있으며, 이산 상태 확산 기술을 채택해 뛰어난 추론 속도를 보여준다고 발표했다.

기존 자회귀 모델 대비 5.4배 빠른 처리 속도

Seed Diffusion Preview의 가장 주목할 만한 특징은 압도적인 처리 속도다. H20 환경에서 이 모델의 코드 추론 속도는 2146 토큰/초에 달해, Mercury나 Gemini Diffusion과 같은 동급 모델들을 크게 앞선다. 특히 동일한 규모의 자회귀 모델 대비 5.4배 빠른 속도를 보여주며, 코드 편집 작업에서도 우수한 성능을 발휘한다.

이러한 성능은 단순히 속도만의 문제가 아니다. 확산 모델의 병렬 생성 잠재력과 전체적 생성의 장점이 기존 자회귀 모델의 추론 속도 한계라는 핵심 문제를 해결했다는 점에서 의미가 크다. 바이트댄스는 이 모델을 통해 구조화된 코드 생성을 실험 영역으로 삼아, 이산 확산 기술 경로가 차세대 언어 모델 기본 프레임워크로서의 실현 가능성을 체계적으로 검증했다고 밝혔다.

핵심 기술: 2단계 훈련 학습 방식

기존 자회귀 모델은 직렬 디코딩 지연 병목 현상이 존재한다. 이론적으로 확산 모델의 병렬 생성 잠재력과 전체적 생성의 장점이 이러한 추론 속도 제한 문제를 해결할 수 있지만, 실제로는 이론적 장점과 실제 효과 사이에 차이가 있었다. 이산 확산 모델의 언어 작업에서의 대규모 배포는 여전히 귀납적 편향 충돌과 추론 효율성 병목이라는 두 가지 핵심 문제에 직면해 있었다.

이러한 문제를 해결하기 위해 Seed Diffusion Preview는 4가지 핵심 기술 혁신을 도입했다. 그 중 가장 중요한 것은 2단계 훈련 방식이다.

1단계: 마스크 기반 확산 훈련

첫 번째 단계는 마스크 기반 확산 훈련으로, 전체 훈련 단계의 80%를 차지한다. 이 단계의 목표는 원본 시퀀스의 토큰을 특수한 [MASK] 표시로 대체하여, 모델이 부분적으로 가려진 시퀀스에서 원본 토큰을 복원하도록 학습 시키는 것이다. 이를 통해 기본적인 언어 모델링 능력의 토대를 마련한다.

2단계: 편집 기반 확산 훈련

두 번째 단계는 편집 기반 확산 훈련으로, 전역적 합리성을 강화한다. 마스크 훈련은 “지름길 의존성” 문제를 야기할 수 있는데, 이는 전체 시퀀스의 전역 논리를 이해하기보다는 마스크 되지 않은 토큰의 지역적 연관성을 우선적으로 활용하여 복원하는 현상이다.

이 단계에서는 삽입, 삭제, 교체 등의 편집 작업을 통해 원본 시퀀스에 교란을 가하고, 편집 거리로 교란 정도를 측정한다. 편집 횟수는 특정 함수로 합리적 범위 내에서 제어되며, 모델의 마스크 되지 않은 토큰에 대한 잘못된 인식을 깨뜨려 모든 토큰을 재평가하도록 강제한다.

실증 결과에 따르면, 편집 단계 도입 후 모델의 코드 수정 벤치마크 CanItEdit에서 pass@1이 자회귀 모델 대비 4.8% 향상(54.3 vs. 50.5)되어, 모델의 코드 논리 이해 및 수정 능력이 현저히 개선되었다.

구조화된 사전 지식을 활용한 제약 순서 확산

이산 확산 모델의 코드 생성에서 “논리 혼란” 문제를 해결하기 위해, 연구팀은 코드의 구조화된 사전 지식을 도입하는 제약 순서 확산을 설계했다. 핵심은 모델이 코드 고유의 “규칙”을 따르도록 하는 것이다.

코드와 같은 언어는 일반적인 대화처럼 엄격한 좌에서 우로의 논리를 갖지는 않지만, 변수를 먼저 선언해야 사용할 수 있는 등 강한 인과 관계를 가지고 있다. 모델이 이러한 규칙을 이해하도록 하기 위해, 팀은 제약 순서 훈련을 제안했다. 먼저 모델이 내부의 사전 훈련된 모델을 통해 대량의 올바른 코드 생성 과정을 시뮬레이션 하게 한 다음, 공식을 추출하듯이 이러한 올바른 생성 순서를 모델이 학습할 수 있는 규칙으로 압축한다.

이를 통해 모델은 코드 생성 시 이러한 구조화된 논리를 자발적으로 따르게 되어, 더 이상 무질서하게 생성하지 않게 된다.

동일 정책 학습 패러다임과 블록 수준 병렬 처리

Seed Diffusion 모델에서 생성 속도 최적화는 다중 전략의 협력을 통해 구현된다. 먼저 동일 정책 학습 패러다임(on-policy)을 채택하여, 모델이 훈련 시 현재 정책으로 생성된 샘플링 궤적을 직접 사용해 매개변수를 업데이트하도록 한다. 이는 훈련 데이터와 모델의 현재 능력을 고도로 일치시켜, 정책 편향으로 인한 효율성 손실을 줄이고 샘플링 전략의 반복 최적화를 가속화하여 알고리즘 차원에서 생성 효율성을 향상 시킨다.

간단히 말해, 모델이 코드를 생성하면서 동시에 학습하는 방식이다. 모델은 현재의 능력으로 코드 생성 과정을 만들어내고, 그 과정의 데이터를 사용해 자신을 개선한다. 이렇게 학습한 내용이 자신의 현재 능력과 잘 맞아 떨어져, 오래된 데이터를 사용해 돌아가는 길을 걷지 않고 코드 생성 전략을 더 빠르게 최적화 할 수 있다.

계산 자원과 생성 지연 사이의 균형을 맞추기 위해, 모델은 블록 수준 병렬 확산 샘플링 방안을 채택한다. 이 방안은 생성 시퀀스를 여러 블록으로 나누고, 확산 샘플링 과정에서 토큰별 직렬 생성이 아닌 이러한 블록들을 병렬로 처리한다.

이를 통해 컴퓨터의 계산 능력을 충분히 활용하면서도 한 번에 너무 긴 내용을 처리해 시간이 지연되는 것을 방지할 수 있다. 계산량과 생성 속도 사이에서 적절한 균형을 찾을 수 있으며, 블록 크기를 조정하여 속도와 효율성을 유연하게 제어할 수 있다.

시스템 레벨 최적화를 통한 성능 향상

모델은 또한 내부 기반 시설 프레임워크에 의존하여 시스템 레벨 최적화를 수행한다. 여기에는 하드웨어 자원 스케줄링, 계산 플로우 간소화 등이 포함되어, 샘플링 과정의 중복 오버헤드를 더욱 줄여 최종적으로 추론 속도의 현저한 향상을 실현했다.

연구팀은 일련의 실험을 통해 코드 생성 분야에서의 모델 우위를 검증했다. 핵심 성과는 추론 속도의 대폭 향상, 생성 품질의 경쟁력, 핵심 기술의 유효성이라는 세 가지 측면에서 나타났다.

H20에서 초당 2146개 토큰에 달하는 성능을 보이면서도 코드 생성 품질의 경쟁력을 유지했으며, 우수한 모델들과 상당한 성능을 보여주었다. 특히 코드 편집 작업에서는 더욱 명확한 우위를 보였다.

바이트댄스, 차세대 언어 모델 패러다임의 가능성 제시

Seed Diffusion Preview의 테스트 결과는 이산 확산 경로가 대규모 언어 모델 추론에서 갖는 잠재력을 검증했다. 이는 단순히 기술적 진보를 넘어서, 차세대 언어 모델 아키텍처의 방향성을 제시하는 중요한 의미를 갖는다.

특히 코드 생성이라는 구조화된 작업에서 확산 모델의 우수성이 입증됨에 따라, 향후 다른 언어 작업 영역으로의 확장 가능성도 기대된다. 바이트댄스는 이번 발표를 통해 자회귀 모델의 한계를 뛰어넘는 새로운 접근 방식의 실현 가능성을 보여주었다.

현재 Seed Diffusion 프로젝트팀은 연구형 인턴을 모집하고 있으며, 기초 능력과 코딩 능력이 우수하고 차세대 대형 모델 패러다임 탐구에 관심이 있는 지원자들을 찾고 있다고 밝혔다.

[참고 기사]
https://www.qbitai.com/2025/08/316722.html

기존 자회귀 모델 대비 5.4배 빠른 처리 속도

핵심 기술: 2단계 훈련 학습 방식

1단계: 마스크 기반 확산 훈련

2단계: 편집 기반 확산 훈련

구조화된 사전 지식을 활용한 제약 순서 확산

동일 정책 학습 패러다임과 블록 수준 병렬 처리

시스템 레벨 최적화를 통한 성능 향상

바이트댄스, 차세대 언어 모델 패러다임의 가능성 제시

댓글 남기기 응답 취소

Latest News

AI

텐센트, 업계 최초 고품질 네이티브 3D 부품 생성 모델 ‘Hunyuan3D-Part’ 공개

AI

바이두, 시각 이해 모델 QIANFAN-VL 오픈소스 공개

Display

TCL, 업계 최초 SQD-Mini LED 기술 탑재한 플래그십 TV 라인업 X11L 출시

Robot

홍콩대 출신 90대생 박사팀, 로봇의 ‘해마체’ 개발로 공간지능 혁신 (Liuxing Technology)

AI

알리바바, 혁신적인 성능의 차세대 AI 모델 ‘Qwen3-Next’ 출시

바이트댄스, 확산 언어 모델 ‘Seed Diffusion Preview’ 공개 – 추론 속도 2146토큰/초 달성

기존 자회귀 모델 대비 5.4배 빠른 처리 속도

핵심 기술: 2단계 훈련 학습 방식

1단계: 마스크 기반 확산 훈련

2단계: 편집 기반 확산 훈련

구조화된 사전 지식을 활용한 제약 순서 확산

동일 정책 학습 패러다임과 블록 수준 병렬 처리

시스템 레벨 최적화를 통한 성능 향상

바이트댄스, 차세대 언어 모델 패러다임의 가능성 제시

댓글 남기기 응답 취소

Latest News