화웨이, Ascend GPU에서 학습된 오픈 웨이트 모델 공개
카테고리
데이터 과학/AI
서브카테고리
인공지능
대상자
AI 연구자, 대규모 언어 모델(LLM) 개발자, 분산 학습/추론 기술자
핵심 요약
- MoGE 아키텍처를 도입해 분산 환경에서 전문가 부하 불균형 문제를 근본적으로 해결
- 720억 매개변수 규모로 설계되며, 토큰별 160억 파라미터 활성화로 추론 효율성 및 확장성 극대화
- Ascend 300I Duo/800I A2 플랫폼에서 GLM-Z1-32B, Qwen3-32B 등 주요 모델을 초과하는 성능 보임
섹션별 세부 요약
1. 모델 아키텍처 및 핵심 기술
- Mixture of Grouped Experts(MoGE) 아키텍처: 전문가를 동일 크기 그룹으로 나누고, 토큰별로 그룹 내 Top-K′ 전문가만 활성화해 Imbalance Score(IS) 0 달성
- 커스텀 연산 커널(MulAttention, SwiftGMM) 적용으로 메모리 접근, 통신 오버헤드 최소화 및 대역폭 활용률 향상
- EP All-to-All 통신, Adaptive Pipeline Overlap, 오퍼레이터 퓨전 등 첨단 병렬화 기술 적용
2. 데이터셋 및 학습 프로세스
- 1.3경 토큰 규모의 다양한 도메인(웹, 책, 코드, STEM, 산업 등) 고품질 데이터셋 구축
- 3단계 사전학습(일반, 추론, annealing) 및 2단계 점진적 최적화 전략 적용
- Group Relative Policy Optimization(GRPO) 알고리듬과 Zero-Advantage-Mask 기법 활용해 복잡 추론 및 일반 언어 처리력 균형 확보
3. 성능 및 효율성
- Ascend 800T A2 NPU 플랫폼에서 FP16 256TFlops, INT8 512TOPS 성능 달성
- 모델 연산 효율(MFU) 35% 향상, 단일 카드당 1148~1528 token/s 추론 성능
- Cost-to-Performance 면에서 Ascend 300I Duo 기반 최적화 실현
결론
- MoGE 아키텍처와 Ascend NPU 최적화를 통해 대규모 모델 분산 학습/추론에서 부하 균형 문제 해결
- 오픈 웨이트 배포로 크라우드소싱 기반 AI 개발 가능성 증대, 업계 기준 마련 기대
- 모델 디스틸레이션 및 소형 모델 시장 확대 가능성, LLM 확장성 한계 극복 위한 효율성 강조