화웨이, 어센드 NPU 최적화 MoE 모델로 딥시크-R1 극복
AI Store에서 AI코딩으로 만들어진 앱을 만나보세요!
지금 바로 방문하기

화웨이, 자체 '어센드' 칩에 최적화된 MoE 모델 출시..."딥시크-R1 능가"

카테고리

프로그래밍/소프트웨어 개발

서브카테고리

인공지능, 머신러닝

대상자 대상자_정보

  • AI 연구자, 대규모 언어모델(LLM) 개발자, 하드웨어 최적화 엔지니어
  • 난이도: 고급(기술적 세부 사항 및 성능 지표 포함)

핵심 요약

  • _판구 울트라 MoE(Pangu Ultra MoE)_ 모델은 7180억 개의 매개변수를 갖는 희소(Sparse) 대형언어모델로, 어센드 NPU에 최적화된 MoE(혼합 전문가)** 구조를 채택했다.
  • 5가지 병렬화 기법(파이프라인, 텐서, 전문가, 데이터, 컨텍스트)을 활용해 256개 전문가, 7680 히든 스테이트, 61 레이어 구조를 최적화했다.
  • AIME 2024(81.3%), MATH500(97.4%) 등 벤치마크에서 딥시크-R1을 초과하는 성능 달성.

섹션별 세부 요약

  • *1. 모델 개요**
  • Pangu Ultra MoE7180억 매개변수를 갖는 희소 모델로, 쿼리에 따라 일부 전문가 모델만 활성화하는 동적 구조를 채택.
  • 어센드 NPU에 맞춤 설계되어, 하드웨어-소프트웨어 시너지를 강조.
  • *2. 최적화 기법**
  • 5가지 병렬화 기법(파이프라인, 텐서, 전문가, 데이터, 컨텍스트)을 활용한 대규모 시뮬레이션을 통해 최적 구조 도출.
  • NPU 간 통신 최적화동기화 오버헤드 감소메모리 부하 분산 기술 적용.
  • *3. 성능 지표**
  • 6000개 어센드 NPU 사용 시 30.0% MFU(모델 플롭 활용도) 달성, 초당 146만 토큰 처리 성능.
  • AIME 2024(81.3%), MATH500(97.4%), CLUEWSC(94.8%), MMLU(91.5%) 등 딥시크-R1 초과 성능 보여.
  • *4. 협력 및 전략**
  • 아이플라이텍과 협력해 어센드 칩으로만 훈련된 모델(싱훠 X1) 출시.
  • 딥시크-R2 학습에 참여한 것으로 알려져, 경쟁사 기술 끌어올리기 전략 강조.
  • *5. 연구 의미**
  • MoE 모델 학습의 가능성을 실증, 어센드 시스템이 LLM 모든 학습 단계에 활용 가능하다는 결론.

결론

  • 하드웨어-소프트웨어 최적화가 핵심이며, NPU 병렬화 기법모델 아키텍처 조합이 성능 향상에 기여.
  • 경쟁사 기술 의존도 감소자체 AI 기술 경쟁력 강화를 위한 전략적 성과로 평가.