TPU: 구글의 AI 가속기, GPU와의 차별점과 핵심 기술 심층 분석

🤖 AI 추천

TPU의 아키텍처, 설계 철학 및 성능 최적화 기법에 대해 깊이 이해하고자 하는 머신러닝 엔지니어, AI 연구원, 하드웨어 설계자 및 고성능 컴퓨팅 전문가에게 이 콘텐츠를 추천합니다.

🔖 주요 키워드

TPU: 구글의 AI 가속기, GPU와의 차별점과 핵심 기술 심층 분석
  • 핵심 기술: Google이 개발한 AI 학습 및 추론 전용 ASIC 칩인 TPU는 GPU와 차별화된 설계 철학을 바탕으로 확장성과 에너지 효율성을 극대화합니다.

  • 기술적 세부사항:

  • 설계 철학: 확장성과 에너지 효율성 중점, 하드웨어-소프트웨어 코디자인 (시스템 온칩, 대형 온칩 메모리, XLA 컴파일러).
  • 핵심 구조: 시스톨릭 어레이, 파이프라이닝, 선행 컴파일 방식으로 딥러닝 연산(특히 행렬곱)에 최적화.
  • OCI 및 OCS: 유연한 노드 구성, 고성능 병렬 처리, 다양한 토폴로지 지원.
  • 확장성: 단일 칩부터 초대형 멀티팟까지 계층적 확장 가능.
  • ASIC 기반: 구글 AI 서비스 확장을 위한 맞춤형 하드웨어.
  • 주요 구성 요소: TensorCore (행렬곱 전담), Matrix Multiply Unit (MXU), Vector Unit (VPU), Vector Memory (VMEM), Scalar Unit + Scalar Memory (SMEM).
  • 메모리 구조: 온칩 메모리(CMEM, VMEM, SMEM)가 GPU 대비 크고, HBM 용량은 GPU가 더 큼.
  • 성능 지표: TPUv5p 기준 칩당 500 TFLOPs/sec, 팟(8960칩) 기준 4.45 ExaFLOPs/sec.
  • 시스톨릭 어레이 특징: PE 배열, 인접 소자 전달, 연속 연산, 입출력 중심 메모리 접근, 희소 행렬에는 부적합.
  • TPU-XLA 코디자인: 불규칙 메모리 액세스 최소화, 스크래치패드 메모리 중심 운용으로 에너지 절감.
  • JAX @jit: JIT와 AoT 중간 형태로, 입력 형태 변경 시 재컴파일 필요 (동적 패딩/반복 비효율).
  • 에너지 효율성: HBM3 사용으로 에너지 소모 감소, 메모리 액세스 최소화.
  • 네트워킹: Inter-Core Interconnect (ICI)로 고대역폭, Optical Circuit Switching (OCS)로 유연한 토폴로지 (3D 토러스, 논컨티구어스 슬라이스, 비틀린 토러스).
  • 시스템 구성: 트레이 (4 TPU칩 + CPU Host), 랙 (64 TPU칩), 팟 (ICI 및 OCS로 연결 가능한 최대 단위), 슬라이스 (임의 구성 추상 단위).
  • 토폴로지 종류: 큐브형 (데이터/텐서 병렬), 직선형 (파이프라인 병렬), 비틀린 토러스 (all-to-all 통신).
  • 대규모 분산학습: XLA 컴파일러를 통한 통신 패턴 최적화 및 슬라이스/팟 간 통신 연산 삽입.

  • 개발 임팩트: AI 모델의 대규모 학습 및 추론 효율성을 극대화하며, 에너지 소비를 절감하고 복잡한 AI 워크로드 처리를 위한 최적의 하드웨어/소프트웨어 통합 솔루션을 제공합니다.

  • 커뮤니티 반응: Google은 TPU Research Cloud(TRC)를 통해 연구 지원을 하고 있으며, Xu et al.의 GSPMD, Jouppi et al.의 TPUv4i 논문 등 관련 연구가 활발히 진행되고 있습니다.

  • 톤앤매너: 전문적이고 기술적인 분석을 제공합니다.

📚 관련 자료