중국 과학원 자동화연구소가 기존 트랜스포머 아키텍처의 한계를 뛰어넘는 혁신적인 ‘SpikingBrain-1.0’ 대형언어모델을 공개했다. 이 모델은 인간 뇌의 신경망 구조를 모방한 스파이킹 신경망을 기반으로 하며, 전체 훈련과 추론 과정을 중국 국산 GPU에서 완료한 최초의 대규모 뇌 모방 기초 모델로 주목 받고 있다.

혁신적인 효율성과 성능 달성
SpikingBrain-7B 오픈소스 모델은 기존 주류 대형언어모델 대비 단 2%의 사전 훈련 데이터만으로 Qwen2.5-7B의 90% 성능을 달성했다. 이는 Llama-3.1-8B 등 여러 오픈소스 트랜스포머 모델과 비견되는 성능이다. 특히 100만 토큰 길이의 초장문 처리 상황에서 첫 번째 토큰 생성 시간이 Qwen2.5-7B 대비 96.2% 단축되는 놀라운 추론 효율성을 보여준다.
에너지 소비 측면에서도 혁신적인 성과를 거두었다. SpikingBrain의 평균 곱셈-덧셈 연산 에너지 소비는 기존 FP16 연산 대비 97.7%, INT8 연산 대비 85.2% 각각 감소했다. 이는 인간 뇌의 저전력 고효율 특성을 모방한 결과로, 향후 대형언어모델의 상용화와 확산에 중요한 의미를 가진다.
중국 하드웨어 생태계 구축의 중요한 이정표
SpikingBrain 프로젝트의 가장 주목할 만한 성과 중 하나는 전체 훈련과 추론 과정을 중국 뮤시(沐曦) 시윈 C550 GPU 클러스터에서 완료했다는 점이다. 훈련 과정에서 클러스터는 2주간 연속 가동되며 중단 없이 안정적으로 작동했다. 이는 중국이 자체 기술로 구축한 비트랜스포머 대형언어모델 아키텍처 생태계의 실현 가능성을 입증하는 중요한 사례가 되었다.
뮤시 소프트웨어 플랫폼은 MoE 최적화, 계산-통신 병렬처리, 메모리 최적화, 연산자 융합, 자동 조정 등 다양한 기술을 통해 SpikingBrain과의 호환성을 구현했다. 특히 Triton 적응과 CUDA에서 MACA 프레임워크로의 마이그레이션이라는 두 가지 경로를 통해 모델 내부의 다양한 연산자를 최적화했다.
트랜스포머 한계 극복을 위한 새로운 접근
연구팀이 SpikingBrain을 개발한 배경에는 기존 트랜스포머 아키텍처의 근본적 한계가 있다. 트랜스포머는 훈련 계산 비용이 시퀀스 길이에 따라 제곱급수로 증가하며, 추론 시 메모리 사용량도 시퀀스 길이에 비례해 선형 증가한다. 이는 100만 토큰 이상의 초장문 시퀀스 처리 능력을 제한하는 요소로 작용한다.
반면 인간의 뇌는 약 20W의 극저전력으로 고도로 복잡한 지능을 구현한다. 뇌의 신경세포는 풍부한 내부 역학과 다양성을 가지고 있어 ‘내생적 복잡성’을 통한 효율적 정보처리가 가능하다. SpikingBrain은 이러한 생물학적 특성을 모방해 필요할 때만 신호를 전송하는 저전력 스파이킹 신경망을 채택했다.
핵심 기술 구성요소와 아키텍처
SpikingBrain은 혼합 고효율 어텐션, MoE 모듈, 스파이킹 인코딩이라는 세 가지 핵심 구성 요소를 통합했다. 7B 버전은 층간 혼합 선형 어텐션과 SWA를 채택해 전역 정보 검색과 지역 종속성을 균형있게 처리한다. 76B 버전은 층 내 병렬 혼합 방식을 사용해 선형, SWA, 전체 소프트맥스 어텐션을 결합해 다양한 종속성을 효율적으로 처리한다.
혼합 전문가 모듈 구현을 위해서는 업사이클링(Upcycling) 기술을 활용했다. 이 방법은 매개변수 복사와 출력 스케일링을 통해 확장된 모델이 초기 상태에서 원본 모델과 일관성을 유지하도록 해 성능 손실을 방지한다.
특히 주목할 만한 기술은 적응형 임계값 스파이킹 뉴런이다. 기존 LIF 모델의 신경세포 과도 침묵이나 과도 활성화 문제를 해결하기 위해 개발된 이 기술은 신경세포가 적절한 활성화 상태를 유지하도록 돕는다.

3단계 모델 전환과 훈련 과정
SpikingBrain 팀은 Qwen2.5-7B-Base를 뇌 모방 스파이킹 대형언어모델로 전환하는 과정을 3단계로 진행했다. 첫 번째 단계인 지속적 사전훈련과 장문 시퀀스 확장에서는 약 1500억 토큰의 데이터를 사용해 시퀀스 길이를 8K에서 128K까지 점진적으로 확장했다. 이는 처음부터 훈련할 때 필요한 데이터량의 단 2%에 해당하는 양으로 효율적인 모델 전환을 실현했다.
두 번째 단계인 지도학습 미세조정에서는 다양한 분야의 데이터셋과 DeepSeek-R1에서 증류한 고품질 추론 데이터셋을 활용해 모델의 일반 지식, 대화, 추론 능력을 단계적으로 향상시켰다.
마지막 단계는 스파이킹 인코딩으로, 생물학적 신경계에서 영감을 받아 대형언어모델의 연속적인 활성화 값을 정수 스파이킹 시퀀스로 변환하는 전략을 제시했다. 추론 단계에서는 정수 스파이킹 카운트가 희소 스파이킹 시퀀스로 전개되어 이벤트 기반 컴퓨팅에 적응한다.
성능 벤치마크와 실제 활용 가능성
SpikingBrain-7B는 여러 벤치마크 테스트에서 기본 모델인 Qwen2.5-7B의 약 90% 성능을 회복했으며, 전체적으로 Mistral-7B, Llama-3-8B 등 선진 트랜스포머 모델과 상당한 수준을 보여준다. 이는 고효율 선형 어텐션이 추론 복잡도를 낮추면서도 강력한 모델링 능력을 유지할 수 있음을 입증한다.
특히 초장문 처리 작업에서 SpikingBrain의 장점이 두드러진다. 법률 및 의료 문서 분석, 복잡한 다중 에이전트 시뮬레이션, 고에너지 입자물리학 실험, DNA 시퀀스 분석, 분자동역학 궤적 등의 분야에서 활용 가능성이 높다.
훈련 성능 면에서도 7B 모델은 128K 시퀀스 길이에서 Qwen2.5-7B 대비 5.36배의 훈련 처리량을 달성했다. 모바일 CPU 환경에서는 64K, 128K, 256K 길이에서 Llama3.2 동급 모델 대비 각각 4.04배, 7.52배, 15.39배의 추론 속도 향상을 보였다.
미래 전망과 한계
현재 SpikingBrain은 GPU에서 호환 실행이 가능하지만, GPU는 스파이킹 신호의 ‘이벤트 기반, 희소 비동기’ 핵심 장점을 완전히 활용하지 못한다. 이 방안의 저전력 잠재력을 완전히 발휘하려면 전용 비동기 하드웨어인 뇌 모방 칩이나 스파이킹 프로세서와의 결합이 필요하다.
실제 체험에서 SpikingBrain-76B는 DeepSeek-R1과 유사한 사고연쇄 스타일을 보여주며 구조적이고 명확한 답변을 제공한다. 다만 일부 프로그래밍이나 물리 법칙 이해 관련 문제에서는 여전히 개선의 여지가 있다.
현재 중국 내에서는 여러 기업과 대학이 비트랜스포머 모델 아키텍처를 탐구하고 있다. 상하이교통대학도 ‘신호 전연결 흐름’ 메커니즘을 채택한 뇌 영감 대형언어모델을 개발한 바 있다. 이러한 뇌 컴퓨팅 방식에서 영감을 받은 모델 아키텍처는 계산 효율성 면에서 트랜스포머 아키텍처 대비 명확한 우위를 가지며, 국산 컴퓨팅 하드웨어와 결합해 대형언어모델의 국산 자주 제어 가능한 새로운 경로를 제시할 것으로 기대된다.
[참고 기사]
https://zhidx.com/p/502666.html
[오픈소스 주소]
https://github.com/BICLab/SpikingBrain-7B
[기술 보고서]
https://github.com/BICLab/SpikingBrain-7B/blob/main/SpikingBrain_Report_Chi.pdf
[체험 링크]
https://controller-fold-injuries-thick.trycloudflare.com