오라클, AMD와 협력하여 최신 AI 훈련 및 추론을 위한 고성능 클러스터 구축

📅 2025-06-23T15:20:18+09:00 👤 김미정 기자 🏷️ 개발

완성도:

0.9

🤖 AI 추천

AI/ML 엔지니어, 클라우드 인프라 엔지니어, 고성능 컴퓨팅(HPC) 전문가, 시스템 아키텍트, 머신러닝 연구원

🔖 주요 키워드

오라클 AMD AI 클러스터 GPU LLM AI 훈련 AI 추론 OCI MI355X HBM3

오라클, AMD와 협력하여 최신 AI 훈련 및 추론을 위한 고성능 클러스터 구축

핵심 기술: 오라클이 AMD와 손잡고 대규모 AI 훈련 및 추론을 위한 고성능 클러스터 구축에 나섭니다. 이는 최신 생성형 AI 및 LLM 워크로드를 지원하며, AMD의 최신 GPU와 고밀도 수냉식 설계, 고성능 CPU 및 네트워크 기술을 활용합니다.
기술적 세부사항:
GPU: AMD Instinct MI355X GPU (이전 세대 대비 최대 2.8배 향상된 처리량, 288GB HBM3, 최대 8TB 메모리 대역폭, FP4 지원).
클러스터 규모: 최대 131,073개의 MI355X GPU 탑재 가능.
인프라: 오라클 클라우드 인프라스트럭처(OCI) 기반, 고처리량 및 초저지연 RDMA 기반 클러스터 네트워크 아키텍처.
냉각: 고밀도 수냉식 설계 (랙당 64개 GPU, 125kW 전력 소비).
CPU: 최대 3TB 메모리를 탑재할 수 있는 AMD Turin 고주파 CPU 기반 헤드 노드.
소프트웨어: ROCm 오픈소스 소프트웨어 스택 (코드 마이그레이션 유연성 및 공급업체 종속성 감소).
네트워크: AMD Polarar NIC 기반 고급 RoCE 기능, UEC 기반 개방형 산업 표준 지원 (프로그래밍 가능한 혼잡 제어, 고성능 저지연 통신).
개발 임팩트: 복잡한 AI 모델의 훈련 및 추론 속도 향상, 비용 효율적인 고속 추론 지원, 운영 환경 수준의 안정적인 AI 인프라 제공, 개발자의 공급업체 종속성 감소 및 유연성 확보.
커뮤니티 반응: 해당 내용은 발표된 기술 협력에 대한 소식으로, 아직 커뮤니티 반응에 대한 직접적인 언급은 없습니다.

📚 관련 자료

ROCm (Radeon Open Compute)

AMD의 GPU 컴퓨팅 플랫폼인 ROCm은 해당 GPU(MI355X)를 지원하며, CUDA와 유사한 환경을 제공하여 AI/ML 워크로드를 개발하고 배포하는 데 필수적인 오픈소스 소프트웨어 스택입니다. 이 글에서 언급된 코드 마이그레이션 유연성과 공급업체 종속성 감소와 직접적으로 관련됩니다.

📖 원문이 궁금하다면

원문 바로가기

🤖 AI 추천

🔖 주요 키워드

📚 관련 자료

📖 원문이 궁금하다면

🔗 연관 콘텐츠