화웨이, 엔비디아 H100에 맞서는 자체 AI 칩 및 최적화 모델 'Pangu Ultra MoE' 공개

🤖 AI 추천

AI 칩 개발 및 연구에 참여하는 하드웨어 엔지니어, 머신러닝 엔지니어, AI 모델 개발자, 그리고 최신 AI 기술 트렌드에 관심 있는 IT 전문가들에게 유용한 정보입니다. 특히 반도체 제조사의 자체 칩 아키텍처 최적화 전략과 MoE 모델 적용 사례를 학습하고자 하는 분들께 추천합니다.

🔖 주요 키워드

화웨이, 엔비디아 H100에 맞서는 자체 AI 칩 및 최적화 모델 'Pangu Ultra MoE' 공개

핵심 기술: 화웨이가 엔비디아 H100에 대항하는 자체 AI 칩 '어센드 NPU'에 최적화된 희소 대규모 언어 모델(LLM)인 'Pangu Ultra MoE'를 공개했습니다. 이는 전문가 혼합(MoE) 방식을 채택하고 칩 엔지니어링 기술을 통해 효율을 극대화한 것이 특징입니다.

기술적 세부사항:
* 모델: Pangu Ultra MoE는 매개변수 7180억 개의 희소(Sparse) LLM으로, 쿼리에 따라 일부 전문가 모델만 활성화되는 동적 구조를 가집니다.
* 하드웨어 최적화: 화웨이 자체 개발 어센드 칩 성능에 맞춰 수천 가지 모델 아키텍처 변형 및 시뮬레이션을 통해 시스템 설계를 최적화했습니다.
* 병렬화 기법: 파이프라인, 텐서, 전문가, 데이터, 컨텍스트 병렬화 등 5가지 방식을 활용하여 최적의 모델 구성(전문가 256개, 히든 스테이트 7680, 레이어 61개)을 도출했습니다.
* NPU 통신 최적화: NPU 장치 간 통신을 최적화하여 동기화 오버헤드를 줄이고 활성 메모리 부하를 분산하는 기술을 적용했습니다.
* 성능 지표: 6000개의 어센드 NPU 사용 시 30.0%의 MFU(모델 플롭 활용도)를 달성하고 초당 146만 토큰을 처리했으며, 이는 딥시크-R1과 동일한 MFU 성능입니다.
* 벤치마크 결과: 수학 능력(AIME 2024: 81.3%, MATH500: 97.4%), 중국어 이해(CLUEWSC: 94.8%), 지식 평가(MMLU: 91.5%)에서 경쟁력 있는 정확도를 보이며, 대부분 딥시크-R1을 능가하는 성능을 입증했습니다.

개발 임팩트: 이번 발표는 칩 제조업체가 자체 하드웨어에 최적화된 AI 모델을 개발함으로써 엔비디아와 같은 미국 기술 기업에 대한 의존도를 낮추고 첨단 성능을 달성할 수 있음을 보여주는 중요한 사례입니다. 또한, 자체 칩으로 훈련한 '싱훠 X1' 모델 출시 및 차기 모델 학습 협력 등 화웨이의 AI 생태계 구축 전략을 엿볼 수 있습니다.

커뮤니티 반응: 원문에서는 커뮤니티 반응에 대한 직접적인 언급은 없으나, 딥시크-R1 및 OpenAI의 'o1'과 동등하거나 그 이상의 성능을 언급하며 업계의 주목을 받고 있음을 시사합니다.

📚 관련 자료