DeepSeek-R1-0528, OpenAI 맞먹는 성능 공개

딥시크가 단오절 연휴를 앞두고 AI 업계에 또 한 번 충격파를 던졌다. 새로 출시된 DeepSeek-R1-0528은 겉보기에는 소규모 버전 업데이트처럼 보이지만, 실제 성능은 OpenAI의 o3-high 모델과 거의 동등한 수준에 도달했다는 평가를 받고 있다.

LiveCodeBench에서 o3와 어깨를 나란히

새로운 DeepSeek-R1-0528의 가장 주목할 만한 성과는 LiveCodeBench 벤치마크에서 OpenAI o3-high와 거의 동등한 성능을 보여준 것이다. 이는 단순한 소규모 업데이트가 아님을 입증하는 결과로, 많은 전문가들이 “이것은 사실상 R2 버전”이라고 평가하고 있다.

실제 테스트에서 새로운 DeepSeek 모델은 기존 버전 대비 현저히 향상된 성능을 보였다. 특히 물리 시뮬레이션 테스트인 ‘볼 튕기기’ 실험에서 구 버전과 비교해 월등한 결과를 나타냈으며, o3, Gemini 2.5 pro, Claude 4 등 최고급 모델들이 어려워했던 “9.9-9.11=?” 같은 수학 문제도 정확히 해결하는 모습을 보였다.

향상된 추론 능력과 독특한 사고 방식

DeepSeek-R1-0528의 핵심 개선사항들을 살펴보면, 먼저 Google 모델과 같은 수준의 깊이 있는 추론 능력을 갖추게 되었다. 또한 글쓰기 작업에서 더욱 자연스러운 문체와 개선된 포맷팅을 제공하며, 빠르면서도 신중한 독특한 추론 스타일을 보여준다.

특히 주목할 점은 모델의 긴 사고 시간이다. 복잡한 문제에 대해 30-60분까지 사고 할 수 있는 능력을 갖췄으며, 실제 테스트에서 “7미터 길이의 사탕수수를 2미터 높이, 1미터 너비의 문을 통과시키는 방법” 같은 문제에 대해 151초 동안 깊이 있게 사고 한 후 실행 가능한 해결책들을 제시했다.

흥미롭게도 이 모델은 사고 과정에서 답변이 질문자에게 흥미로울지 고려하기도 하고, 유머러스한 방식으로 난제에 접근하려는 시도도 보인다.

프로그래밍 능력의 비약적 발전

많은 사용자들이 언급한 가장 두드러진 개선점은 프로그래밍 능력이다. 실제 테스트에서 “Three.js를 이용한 태양계 시뮬레이션” 요청에 대해 단 24초 만에 설계 컨셉을 정리하고, 동적 애니메이션과 상호작용 기능, 심지어 그림자 효과까지 포함된 완성도 높은 코드를 생성했다.

또한 논문을 업로드하고 “R1을 소개하는 웹페이지 디자인”을 요청했을 때도 매우 완성도 높은 프론트엔드 디자인을 제공하는 등, 실용적인 개발 업무에서 상당한 활용도를 보여주고 있다.

오픈소스의 승리

새로운 DeepSeek-R1-0528은 이미 HuggingFace에서 MIT 라이선스로 공개되었다. 이는 오픈소스 모델이 OpenAI의 o3, Anthropic의 Claude 4 같은 최고급 상용 모델들과 어깨를 나란히 할 수 있음을 보여주는 상징적인 사건이다.

흥미롭게도 며칠 전 “DeepSeek-V3-0526″이라는 가짜 정보가 유포된 사건이 있었는데, 이는 Unsloth가 DeepSeek 신모델 발표를 위해 미리 준비한 템플릿이 검색엔진에 노출되면서 발생한 해프닝이었다. 지금 생각해보면 이런 소문들이 완전히 근거 없는 것은 아니었던 셈이다.

업계 전문가들은 이번 업데이트가 올해 3월 DeepSeek V3의 “소규모 업데이트”와 유사한 패턴이라고 분석하고 있다. 당시에도 공식적으로는 작은 개선이라고 했지만 실제 성능 향상은 상당했으며, 현재의 R1-0528도 V3-0324를 기반으로 개발되었을 가능성이 높다고 보고 있다.

더 많은 테스트 결과들이 공개되면서, 오픈소스 AI 모델이 다시 한 번 상용 최고급 모델들을 따라잡았다는 평가가 지배적이다. 이는 AI 개발 생태계에서 오픈소스의 중요성과 경쟁력을 다시 한 번 입증하는 결과로 받아 들여지고 있다.

[허깅페이스 주소]
https://huggingface.co/deepseek-ai/DeepSeek-R1-0528