오라클·AMD, AI·에이전틱 워크로드 지원 협력
카테고리
프로그래밍/소프트웨어 개발
서브카테고리
인공지능
대상자
AI 개발자, 데이터 과학자, 클라우드 인프라 엔지니어 (고성능 컴퓨팅 환경 구축 및 최적화 필요자)
핵심 요약
- 오라클과 AMD는 최대 13만1천73개 MI355X GPU를 탑재한 제타스케일 AI 클러스터를 구축, 생성형 AI·LLM 추론 지원
- MI355X GPU는 HBM3 288GB, 8TB 메모리 대역폭, 4비트 FP4 연산 지원으로 고성능·저비용 추론 가능
- ROCm 오픈소스 스택을 통해 코드 마이그레이션 유연성 확보 및 공급업체 종속성 감소
섹션별 세부 요약
1. 협력 배경 및 클러스터 구성
- 오라클은 AMD MI355X GPU를 OCI에 공급해 고처리량·초저지연 RDMA 기반 네트워크 아키텍처 구축
- 최대 13만1천73개 MI355X GPU 탑재로 대규모 AI 훈련·추론 인프라 제공
- AMD 튜린 고주파 CPU 기반 헤드 노드 활용해 GPU 성능 극대화
2. MI355X GPU 성능 특징
- 이전 세대 대비 2.8배 처리량 향상, 288GB HBM3, 8TB 메모리 대역폭 지원
- 4비트 FP4 연산으로 비용 효율적인 고속 추론 가능
- 고밀도 수냉식 설계로 랙당 64개 GPU, 125kW 전력 소비로 AI 워크로드 처리 성능 향상
3. 네트워크 및 소프트웨어 스택
- AMD 폴라라 NIC를 통해 고급 RoCE 기능 및 UEC 기반 개방형 표준 지원
- 프로그래밍 가능한 혼잡 제어로 고성능 저지연 통신 구현
- ROCm 오픈소스 스택을 통해 코드 마이그레이션 유연성 확보 및 공급업체 종속성 줄이기
결론
- ROCm 스택 활용과 HBM3 메모리 대역폭 최적화가 AI 워크로드 성능 향상의 핵심
- 4비트 FP4 연산 지원으로 비용 효율적인 추론 인프라 구축이 권장
- 고밀도 수냉식 설계와 AMD NIC 기반 네트워크를 통해 확장성·안정성 극대화