Google Cloud 503 오류 장애 보고서 – 2025-06-13
AI Store에서 AI코딩으로 만들어진 앱을 만나보세요!
지금 바로 방문하기

Google Cloud 장애 보고서 – 2025-06-13

카테고리

인프라/DevOps/보안

서브카테고리

인프라/DevOps

대상자

DevOps 엔지니어, 클라우드 인프라 관리자, 시스템 신뢰성 엔지니어

핵심 요약

  • Service Control 시스템의 null 포인터 예외로 인한 전 세계적 503 오류 발생
  • 빈 필드 포함된 정책 데이터에 의한 Service Control 크래시, herd effect로 복구 지연
  • 아키텍처 분리, 에러 처리 강화, 데이터 검증 강화 등 재발 방지 대책 발표

섹션별 세부 요약

1. 장애 개요

  • 2025년 6월 12일 10:49 PDT, Google Cloud, Google Workspace, Google Security Operations 등 여러 서비스에서 503 오류 급증
  • 전세계 영향, IAM, Cloud Storage, Gmail, BigQuery 등 수십 개 서비스 장애 발생
  • 최대 1시간 이상 지연 및 백로그 영향

2. 원인 분석

  • Service Control 바이너리의 null 포인터 예외 처리 미흡
  • 5월 29일 추가된 쿼터 정책 검사 기능의 빈 필드(Blank Field) 포함
  • 정책 데이터 전세계 실시간 복제로 null 포인터 크래시 유발
  • us-central-1 지역의 herd effect로 복구 지연 (2시간 40분)

3. 복구 과정

  • SRE 팀 2분 내 인지, 10분 내 원인 파악, red-button 임시 차단 적용
  • 40분 내 대부분 지역 복구 완료, us-central-1 지역 2시간 40분 지연
  • 모니터링 인프라 자체 장애로 고객 정보 전달 지연

4. 재발 방지 대책

  • 아키텍처 분리 및 fail open 처리 도입
  • 글로벌 데이터 복제 단계적 전파 및 검증 강화
  • 모든 주요 바이너리 변경 시 기능 플래그화 및 기본 비활성 처리
  • 무작위 지수적 백오프 정책 도입 및 모니터링/커뮤니케이션 강화

결론

  • 에러 처리 및 데이터 검증 체계 강화, 무작위 지수적 백오프 정책 도입이 필수
  • 신기능은 점진적 롤아웃 및 기능 플래그 사용 필수, 스테이징 환경 테스트 확대
  • 모니터링 인프라 이중화 및 자동화 커뮤니케이션 보완으로 장애 대응력 향상