오라클, AMD와 협력하여 최신 AI 훈련 및 추론을 위한 고성능 클러스터 구축

🤖 AI 추천

AI/ML 엔지니어, 클라우드 인프라 엔지니어, 고성능 컴퓨팅(HPC) 전문가, 시스템 아키텍트, 머신러닝 연구원

🔖 주요 키워드

오라클, AMD와 협력하여 최신 AI 훈련 및 추론을 위한 고성능 클러스터 구축
  • 핵심 기술: 오라클이 AMD와 손잡고 대규모 AI 훈련 및 추론을 위한 고성능 클러스터 구축에 나섭니다. 이는 최신 생성형 AI 및 LLM 워크로드를 지원하며, AMD의 최신 GPU와 고밀도 수냉식 설계, 고성능 CPU 및 네트워크 기술을 활용합니다.

  • 기술적 세부사항:

  • GPU: AMD Instinct MI355X GPU (이전 세대 대비 최대 2.8배 향상된 처리량, 288GB HBM3, 최대 8TB 메모리 대역폭, FP4 지원).
  • 클러스터 규모: 최대 131,073개의 MI355X GPU 탑재 가능.
  • 인프라: 오라클 클라우드 인프라스트럭처(OCI) 기반, 고처리량 및 초저지연 RDMA 기반 클러스터 네트워크 아키텍처.
  • 냉각: 고밀도 수냉식 설계 (랙당 64개 GPU, 125kW 전력 소비).
  • CPU: 최대 3TB 메모리를 탑재할 수 있는 AMD Turin 고주파 CPU 기반 헤드 노드.
  • 소프트웨어: ROCm 오픈소스 소프트웨어 스택 (코드 마이그레이션 유연성 및 공급업체 종속성 감소).
  • 네트워크: AMD Polarar NIC 기반 고급 RoCE 기능, UEC 기반 개방형 산업 표준 지원 (프로그래밍 가능한 혼잡 제어, 고성능 저지연 통신).

  • 개발 임팩트: 복잡한 AI 모델의 훈련 및 추론 속도 향상, 비용 효율적인 고속 추론 지원, 운영 환경 수준의 안정적인 AI 인프라 제공, 개발자의 공급업체 종속성 감소 및 유연성 확보.

  • 커뮤니티 반응: 해당 내용은 발표된 기술 협력에 대한 소식으로, 아직 커뮤니티 반응에 대한 직접적인 언급은 없습니다.

📚 관련 자료