구글 클라우드 IAM 서비스 장애로 인한 글로벌 시스템 충격
카테고리
프로그래밍/소프트웨어 개발
서브카테고리
인프라/DevOps/보안
대상자
- DevOps 엔지니어, SRE(Site Reliability Engineer), 클라우드 아키텍트
- 난이도: 중급 이상 (인프라 장애 분석, 시스템 복구 전략 이해 필요)
핵심 요약
- IAM 서비스 장애로 인해 GCP, Cloudflare, Anthropic 등 다수 시스템에 대규모 인증 실패 발생
- us-central1 지역의 IAM 메타데이터 쿼럼 셰어드로 인한 복구 지연
- DevOps에서 강조해야 할 핵심 교훈: 제어 평면 고장 대응 전략, 은폐 의존성 점검, 비상 우회 경로 설계**
섹션별 세부 요약
1. **장애 발생 경과 및 시간선**
- 6월 12일 10:50 PT IAM 서비스 업데이트로 인한 인증 실패 시작
- 11:05 PT Gmail, Drive 등 GCP 서비스의 503 에러 대량 발생
- 12:41 PT Google이 IAM 백엔드 롤아웃 오류를 원인으로 파악
- 17:10 PT Dataflow, Vertex AI 등 복잡한 서비스의 완전 복구 지연
2. **기술적 영향 범위**
- GCP 서비스: Cloud Storage(403/500 에러), Cloud SQL/Bigtable(인증 실패), Workspace(503 간헐적 발생)
- Cloudflare: Workers KV(백업 스토어 타임아웃), Access/WARP(Zero Trust 기능 중단), Durable Objects(SQLite) 메타데이터 실패
- Anthropic: 파일 업로드 중단, 이미지 비전 기능 오류, 텍스트 쿼리만 제한적으로 작동
3. **복구 조치 및 대응**
- Google: IAM 빈더 롤백, 불량 설정 삭제, 토큰 캐시 강제 갱신
- Cloudflare: Code Orange 선언, Google 엔지니어와 크로스 벤더 브리지 형성
- Anthropic: 업로드 제한 → IAM 안정화 후 복구
4. **사후 분석 및 교훈**
- 제어 평면 고장이 데이터 평면 고장보다 심각한 영향을 미침
- 은폐 의존성(예: Cloudflare의 Google 백엔드)이 단일 공급업체 위험을 유발
- 상태 페이지는 빠르고 정직하게 대응해야 함
- 비상 우회 경로 설계가 필수적(예: Cloudflare Access 장애 시 대체 경로)
- Chaos Drill을 정기적으로 수행해야 함
결론
- DevOps 팀은 제어 평면 고장 대응 전략, 은폐 의존성 점검, 비상 우회 경로 설계를 반드시 포함한 사고 대응 플레이북을 업데이트해야 함.
- IAM 서비스의 업데이트 점검 및 캐니리 체크 강화를 통해 사전 예방이 필요하며, 복구 시간 최소화를 위한 자동화 프로세스를 재검토해야 함.