화웨이가 복잡한 AI 모델을 실제로 훈련 시키기 전에 가상 환경에서 ‘리허설’을 수행할 수 있는 혁신적인 기술인 ‘디지털 풍동(Digital Wind Tunnel)’을 최초로 공개했다. 이 기술은 마치 영화 ‘매트릭스’처럼 가상 세계에서 현실을 미리 시뮬레이션 하는 개념으로, AI 모델 훈련과 추론 과정을 컴퓨터 상에서 미리 모의 실험할 수 있게 해준다.

AI 훈련 과정에서 60% 이상의 산업 낭비 문제 해결
화웨이의 마르코프 모델링 시뮬레이션 팀이 개발한 이 디지털 풍동 기술은 몇 시간 만에 만 개 GPU 클러스터 솔루션을 미리 시뮬레이션 할 수 있다. 화웨이 연구팀이 이러한 기술을 개발하게 된 배경에는 중요한 발견이 있었다. 연구 결과, 현재 AI 모델 훈련 과정에서 60% 이상의 컴퓨팅 파워가 하드웨어 리소스 불일치와 시스템 결합 문제로 인해 낭비되고 있다는 것이다.
자동차 설계자들이 신차 성능을 테스트하기 위해 풍동 실험을 활용하는 것처럼, 화웨이는 이 플랫폼을 통해 컴퓨터 내에서 AI 대형 모델의 훈련과 추론 과정을 시뮬레이션 하여 문제를 미리 발견하고 구성을 최적화 할 수 있게 했다. 이는 궁극적으로 시간과 컴퓨팅 파워의 낭비를 방지하는 것이 목적이다.

대형 모델 운영의 3대 핵심 과제
대형 모델 운영을 고성능 레이싱카 운전에 비유하면, 현재의 주요 문제점은 세 가지로 요약할 수 있다.
첫째, 훈련 단계에서는 마치 급 가속 페달을 밟는 것과 같은 상황이지만, 컴퓨팅 파워, 메모리, 통신이 적절히 조합되지 않으면 효율성이 급격히 떨어진다. 둘째, 추론 단계에서는 작업의 차이가 극도로 크다. 짧은 질의 응답(도시 슈퍼카와 같은)과 긴 텍스트 생성(오프로드 지구력 경주와 같은) 작업을 동시에 처리해야 하는데, 하드웨어가 이 모든 요구 사항을 동시에 만족 시키기 어렵다. 셋째, 만 개 GPU 클러스터는 거대한 차량 대열을 관리하는 것과 같아서, ‘교통 체증’이나 ‘고장’을 피하고 장시간 안정적인 운영을 보장해야 한다.
디지털 풍동은 이러한 과정에서 AI 컴퓨팅 파워가 ‘시행착오를 줄이고, 더 빠르고 안정적으로 작동’할 수 있도록 도와주는 지능형 스케줄링 전문가 역할을 한다.
Sim2Train: 시간 단위 자동 최적화 시스템
대형 모델 훈련은 갈수록 복잡해지고 있으며, 특히 파라미터 수가 기하급수적으로 증가하면서 하드웨어에 대한 요구 사항도 높아지고 있다. 기존의 스케줄링 전략으로는 하드웨어의 잠재력을 충분히 발휘할 수 없다는 문제가 있다.
이를 해결하기 위해 화웨이 팀은 Sim2Train이라는 시뮬레이션 플랫폼을 제시했다. 이 플랫폼은 훈련 과정을 모의 실험하여 최적의 하드웨어 구성과 훈련 전략을 찾아내어 어센드(Ascend) 디바이스가 더 빠르고 효율적으로 작동할 수 있도록 한다.
이 플랫폼의 주요 특징은 두 가지이다.
첫째는 훈련 과정 시뮬레이션이다. ‘동적-정적 융합 대규모 훈련 클러스터 모델링 시뮬레이션’이라는 구체적인 방법을 통해 모듈화 된 조립 방식으로 AI 작업 흐름을 구성한다. 마치 레고 블록을 조립하듯 유연하게 복잡한 모델을 구축하고, 컴퓨팅, 메모리, 통신의 리소스 소모를 빠르게 분석할 수 있다.
둘째는 최적 방안의 자동 탐색이다. 어센드 플랫폼을 위한 모델 구조 지능형 검색 및 최적화를 실현하여 모델 성능과 기능 능력의 최적 균형을 달성한다. CloudMatrix 어센드 슈퍼노드의 복잡한 토폴로지 구조에 대응하여, Sim2Train은 칩 수준, 토폴로지 수준, 워크로드 수준의 풀스택 아키텍처 모델링과 전략 공동 최적화를 수행할 수 있다.

Sim2Infer: 분 단위 동적 가속 시스템
훈련 단계 외에도 화웨이는 시뮬레이션 추론 과정에서도 독특한 해결책을 제시했다. Sim2Infer는 엔드투엔드 추론 성능을 30% 향상 시킬 수 있는 다층 추론 시스템 모델링 시뮬레이션이다.
이 시스템의 핵심 능력은 다섯 가지로 구분된다. 첫째, 워크로드 특성 모의실험으로, 서로 다른 모델과 입력 데이터의 컴퓨팅, 메모리 액세스, 통신 요구 사항을 수학적 모델로 표현한다. 예를 들어, MoE(Mixture of Experts) 모델에서 서로 다른 전문가가 활성화되는 빈도, 서로 다른 디바이스 간 데이터 전송량 등을 시뮬레이션 한다.
둘째는 하드웨어 아키텍처 분석이다. 칩 마이크로 아키텍처(3D Cube 텐서 가속 엔진 등)부터 전체 클러스터의 네트워크 토폴로지(여러 서버의 상호 연결 방식)까지 하드웨어 성능을 전방위적으로 시뮬레이션 한다.
셋째는 배포 전략 설명으로, 데이터 병렬 처리(여러 디바이스가 서로 다른 데이터를 처리), 텐서 병렬 처리(컴퓨팅 작업 분할) 등 다양한 추론 전략 구성을 지원하여 어센드에서 어떤 전략이 가장 효율적인지 확인할 수 있다.
넷째는 시뮬레이션 실행 구동으로, ‘이산 이벤트’를 사용하여 추론 과정을 시뮬레이션 한다. 예를 들어 특정 연산자가 언제 계산을 시작하고, 데이터가 언제 전송되는지 등을 정확히 계산하여 전체 추론 프로세스의 소요 시간을 산출한다.
다섯째는 자동 검색 최적화로, 주어진 제약 조건(지연 시간 20ms 초과 금지 등) 하에서 최적의 모델 구조, 배포 전략, 하드웨어 구성을 자동으로 검색한다.

Sim2Availability: 초 단위 장애 위치 파악
훈련과 추론 외에도 대형 모델이 만 개 GPU 클러스터와 같은 환경에서 안정적이고 효과적으로 작동하도록 보장하는 방법도 핵심 문제다. 이를 위해 화웨이는 마찬가지로 시뮬레이션 형태로 Sim2Availability라는 해결책을 제시했다.
컴퓨터로 날씨를 시뮬레이션 하는 것처럼, 이 프레임워크는 마르코프 모델을 구축하여 컴퓨터 내에서 클러스터를 ‘가상화’하고, 다양한 장애 발생, 감지 및 후속 영향과 복구 과정을 시뮬레이션 하여 가용성을 향상 시키는 방법을 분석한다.
Sim2Availability의 시뮬레이션 핵심 요소는 다음과 같다. 장애 ‘생성기’는 NPU 오류, 메모리 오류, 광학 모듈 순간 단선 등 다양한 하드웨어 장애를 시뮬레이션 하며, 여러 장애가 동시에 발생하는 상황도 시뮬레이션 할 수 있다.
장애 ‘탐지기’는 알고리즘을 통해 네트워크 속도 저하나 하드웨어 이상을 판단하는 등 이러한 장애를 감지하는 방법을 시뮬레이션 한다. 탐지의 정확성은 복구 효율성에 영향을 미친다.
장애 ‘영향 분석’에서는 NPU 장애가 훈련 중단을 야기하여 재시작이 필요하고, 광학 모듈 장애가 네트워크 전송 속도를 저하 시켜 훈련 속도가 떨어지는 등의 상황을 분석한다.
복구 ‘전략 라이브러리’는 서로 다른 장애에 대해 서로 다른 복구 방법을 설계한다. 예를 들어 ‘Step급 롤백'(한 단계 훈련 데이터만 되돌리기), ‘프로세스 급 복구'(문제가 있는 프로세스만 재시작), ‘전량 복구'(전체 작업 재시작) 등이 있다.

화웨이 디지털 풍동 기술의 의미와 전망
화웨이의 디지털 풍동 기술은 AI 모델 개발과 운영에 있어 새로운 패러다임을 제시한다. 이 기술은 실제 하드웨어 리소스를 소모하기 전에 가상 환경에서 다양한 시나리오를 테스트할 수 있게 해주어, 개발 비용을 크게 절감하고 효율성을 극대화할 수 있다.
특히 대형 모델의 훈련과 추론 과정에서 발생할 수 있는 각종 문제들을 사전에 파악하고 해결할 수 있다는 점에서 큰 의미가 있다. 이는 AI 산업 전반의 발전에 중요한 기여를 할 것으로 예상된다.
화웨이의 디지털 풍동 기술은 어센드 플랫폼과의 깊은 통합을 통해 최적화된 성능을 제공하며, 향후 더 많은 AI 개발자들이 이 기술을 활용하여 보다 효율적인 AI 모델 개발과 운영을 수행할 수 있을 것으로 기대된다.