화웨이 "자체 칩으로 엔비디아 칩 효율 능가"…새로운 데이터센터 아키텍처 공개
카테고리
데이터 과학/AI
서브카테고리
인공지능, 머신러닝
대상자
- AI/ML 엔지니어, 데이터센터 아키텍처 개발자, 기술 리더
- 중급~고급 수준의 기술 이해도를 가진 독자 (하드웨어 최적화, 병렬 처리, 모델 성능 평가 등 기술적 세부사항 포함)
핵심 요약
- 화웨이 '클라우드매트릭스384' 아키텍처는 384개의 Ascend 910C NPU와 192개의 Kunpeng CPU를 UB 네트워크로 통합하여 엔비디아 H100/H800 GPU를 능가하는 성능을 달성
- INT8 양자화 및 EP320 병렬 처리 전략 적용으로 프리필 처리속도 초당 6,688토큰, 디코드 처리속도 초당 1,943토큰 기록
- 모델 병렬 처리 최적화 기술을 통해 대규모 MoE 모델과 분산 키-값 캐시 접근에서 고성능 저지연 구현
섹션별 세부 요약
1. 새로운 데이터센터 아키텍처 설계
- 클라우드매트릭스384는 384개의 Ascend 910C NPU와 192개의 Kunpeng CPU를 UB 네트워크로 연결한 통합 슈퍼노드 구조
- all-to-all communication 지원으로 자원 동적 통합/균일 접근/독립 확장 가능
- MoE 모델 병렬 처리 및 분산 KV 캐시 접근에 최적화된 설계
2. 하드웨어 친화적 최적화 기술
- 프리필/디코드/캐싱 리소스 분리를 통한 P2P 서빙 아키텍처 설계
- UB 네트워크 기반의 대규모 전문가 병렬화(EP320) 적용: NPU당 전문가 배정으로 디코드 지연 최소화
- INT8 양자화 및 마이크로배치 파이프라이닝 기술로 실행 효율성 20% 이상 향상
3. 성능 평가 결과
- Ascend 910C 기반으로 프리필 처리속도 초당 6,688토큰, 디코드 처리속도 초당 1,943토큰 기록
- 엔비디아 H100/H800 대비 연산 효율성 20% 이상 우위
- INT8 양자화 적용 시 공식 딥시크-R1 API 정확도 유사성 유지
결론
- 하드웨어 클러스터링 및 스태킹 기술을 통해 개별 칩 성능 저하를 보완하는 AI 인프라 확장 전략 제시
- UB 네트워크 기반 all-to-all 통신과 모델 병렬 처리 최적화가 차세대 LLM 서비스의 핵심 기반
- INT8 양자화 기술은 성능/정확도 균형을 달성하는 AI 추론 최적화의 핵심