화웨이, 엔비디아 GPU 효율 경신한 데이터센터 아키텍처 공개
AI Store에서 AI코딩으로 만들어진 앱을 만나보세요!
지금 바로 방문하기

화웨이 "자체 칩으로 엔비디아 칩 효율 능가"…새로운 데이터센터 아키텍처 공개

카테고리

데이터 과학/AI

서브카테고리

인공지능, 머신러닝

대상자

  • AI/ML 엔지니어, 데이터센터 아키텍처 개발자, 기술 리더
  • 중급~고급 수준의 기술 이해도를 가진 독자 (하드웨어 최적화, 병렬 처리, 모델 성능 평가 등 기술적 세부사항 포함)

핵심 요약

  • 화웨이 '클라우드매트릭스384' 아키텍처384개의 Ascend 910C NPU192개의 Kunpeng CPUUB 네트워크로 통합하여 엔비디아 H100/H800 GPU를 능가하는 성능을 달성
  • INT8 양자화EP320 병렬 처리 전략 적용으로 프리필 처리속도 초당 6,688토큰, 디코드 처리속도 초당 1,943토큰 기록
  • 모델 병렬 처리 최적화 기술을 통해 대규모 MoE 모델분산 키-값 캐시 접근에서 고성능 저지연 구현

섹션별 세부 요약

1. 새로운 데이터센터 아키텍처 설계

  • 클라우드매트릭스384384개의 Ascend 910C NPU192개의 Kunpeng CPUUB 네트워크로 연결한 통합 슈퍼노드 구조
  • all-to-all communication 지원으로 자원 동적 통합/균일 접근/독립 확장 가능
  • MoE 모델 병렬 처리분산 KV 캐시 접근에 최적화된 설계

2. 하드웨어 친화적 최적화 기술

  • 프리필/디코드/캐싱 리소스 분리를 통한 P2P 서빙 아키텍처 설계
  • UB 네트워크 기반의 대규모 전문가 병렬화(EP320) 적용: NPU당 전문가 배정으로 디코드 지연 최소화
  • INT8 양자화마이크로배치 파이프라이닝 기술로 실행 효율성 20% 이상 향상

3. 성능 평가 결과

  • Ascend 910C 기반으로 프리필 처리속도 초당 6,688토큰, 디코드 처리속도 초당 1,943토큰 기록
  • 엔비디아 H100/H800 대비 연산 효율성 20% 이상 우위
  • INT8 양자화 적용 시 공식 딥시크-R1 API 정확도 유사성 유지

결론

  • 하드웨어 클러스터링 및 스태킹 기술을 통해 개별 칩 성능 저하를 보완하는 AI 인프라 확장 전략 제시
  • UB 네트워크 기반 all-to-all 통신모델 병렬 처리 최적화차세대 LLM 서비스의 핵심 기반
  • INT8 양자화 기술성능/정확도 균형을 달성하는 AI 추론 최적화의 핵심