화웨이, 차세대 AI 데이터센터 아키텍처 'CloudMatrix384' 공개 및 Ascend 칩 성능 우위 주장
🤖 AI 추천
화웨이의 새로운 AI 데이터센터 아키텍처 'CloudMatrix384'와 AI 칩 'Ascend'의 성능 및 최적화 기술에 대한 깊이 있는 이해를 원하는 AI 연구원, 머신러닝 엔지니어, 고성능 컴퓨팅(HPC) 설계자 및 관련 기술 동향을 파악하고자 하는 IT 전문가에게 추천합니다.
🔖 주요 키워드

핵심 기술: 화웨이가 자체 개발한 차세대 AI 데이터센터 아키텍처인 'CloudMatrix384'를 공개하며, 이를 통해 자사의 AI 칩 'Ascend'가 엔비디아의 H100/H800 GPU를 능가하는 성능을 달성했다고 주장합니다. 특히, 대규모 언어 모델(LLM) 및 전문가 혼합(MoE) 모델 학습 및 추론에 최적화된 통합 슈퍼노드 구조와 고대역폭·저지연 통합 버스(UB) 네트워크 기술이 핵심입니다.
기술적 세부사항:
* CloudMatrix384 아키텍처: 384개의 Ascend 910C NPU, 192개의 Kunpeng CPU 등 하드웨어를 통합 슈퍼노드로 결합.
* UB 네트워크: 모든 노드 간 직접 통신(all-to-all communication)을 지원하여 연산, 메모리, 네트워크 자원의 동적 통합 및 균일한 접근을 가능하게 함.
* Peer-to-Peer 서빙 아키텍처 (CloudMatrix-Infer): 프리필(prefill), 디코드(decode), 캐싱(caching) 단계를 분리하여 개별 확장성을 확보하고, UB 네트워크를 활용한 고대역폭·균일한 캐시 데이터 접근로 캐시 효율성 증대.
* 대규모 전문가 병렬화(EP) 전략: UB 네트워크를 통해 토큰 분배와 전문가 출력을 효율적으로 결합하여 EP320 수준의 높은 병렬도 지원 및 디코드 지연 최소화.
* 하드웨어 친화적 최적화: 최적화된 연산자, 마이크로배치 기반 파이프라이닝, INT8 정밀도 양자화 등을 통해 실행 효율성과 자원 활용도 향상.
개발 임팩트:
* 대규모 MoE 모델 및 차세대 LLM 서비스에 필요한 고성능, 저지연 AI 인프라 구축 솔루션 제시.
* 엔비디아 GPU 대비 경쟁력 있는 성능 지표 달성 (프리필 6688 tokens/sec, 디코드 1943 tokens/sec @ 50ms 이하 지연 시간).
* INT8 양자화 적용 시에도 높은 정확도 유지.
* 스태킹 및 클러스터링 기술을 통한 성능 극대화 가능성 제시.
커뮤니티 반응:
* 화웨이 창업자 런정페이의 "스태킹과 클러스터링을 통해 세계 최고 수준의 성능 실현" 발언과 일치하는 기술 진전으로 해석됩니다.
* 엔비디아 CEO 젠슨 황은 "개별 컴퓨터 성능 부족 시 더 많이 연결하면 된다"며 화웨이의 접근 방식에 동의하는 듯한 견해를 피력했습니다.