Google Cloud 장애 보고서 – 2025-06-13
카테고리
인프라/DevOps/보안
서브카테고리
인프라/DevOps
대상자
DevOps 엔지니어, 클라우드 인프라 관리자, 시스템 신뢰성 엔지니어
핵심 요약
- Service Control 시스템의 null 포인터 예외로 인한 전 세계적 503 오류 발생
- 빈 필드 포함된 정책 데이터에 의한 Service Control 크래시, herd effect로 복구 지연
- 아키텍처 분리, 에러 처리 강화, 데이터 검증 강화 등 재발 방지 대책 발표
섹션별 세부 요약
1. 장애 개요
- 2025년 6월 12일 10:49 PDT, Google Cloud, Google Workspace, Google Security Operations 등 여러 서비스에서 503 오류 급증
- 전세계 영향, IAM, Cloud Storage, Gmail, BigQuery 등 수십 개 서비스 장애 발생
- 최대 1시간 이상 지연 및 백로그 영향
2. 원인 분석
- Service Control 바이너리의 null 포인터 예외 처리 미흡
- 5월 29일 추가된 쿼터 정책 검사 기능의 빈 필드(Blank Field) 포함
- 정책 데이터 전세계 실시간 복제로 null 포인터 크래시 유발
- us-central-1 지역의 herd effect로 복구 지연 (2시간 40분)
3. 복구 과정
- SRE 팀 2분 내 인지, 10분 내 원인 파악, red-button 임시 차단 적용
- 40분 내 대부분 지역 복구 완료, us-central-1 지역 2시간 40분 지연
- 모니터링 인프라 자체 장애로 고객 정보 전달 지연
4. 재발 방지 대책
- 아키텍처 분리 및 fail open 처리 도입
- 글로벌 데이터 복제 단계적 전파 및 검증 강화
- 모든 주요 바이너리 변경 시 기능 플래그화 및 기본 비활성 처리
- 무작위 지수적 백오프 정책 도입 및 모니터링/커뮤니케이션 강화
결론
- 에러 처리 및 데이터 검증 체계 강화, 무작위 지수적 백오프 정책 도입이 필수
- 신기능은 점진적 롤아웃 및 기능 플래그 사용 필수, 스테이징 환경 테스트 확대
- 모니터링 인프라 이중화 및 자동화 커뮤니케이션 보완으로 장애 대응력 향상