개발 인프라/DevOps/보안

D

dev_to

2025. 07. 01

구글 클라우드 IAM 서비스 장애로 인한 글로벌 시스템 충격

카테고리

프로그래밍/소프트웨어 개발

서브카테고리

인프라/DevOps/보안

대상자

- DevOps 엔지니어, SRE(Site Reliability Engineer), 클라우드 아키텍트

- 난이도: 중급 이상 (인프라 장애 분석, 시스템 복구 전략 이해 필요)

핵심 요약

IAM 서비스 장애로 인해 GCP, Cloudflare, Anthropic 등 다수 시스템에 대규모 인증 실패 발생
us-central1 지역의 IAM 메타데이터 쿼럼 셰어드로 인한 복구 지연
DevOps에서 강조해야 할 핵심 교훈: 제어 평면 고장 대응 전략, 은폐 의존성 점검, 비상 우회 경로 설계**

섹션별 세부 요약

1. 장애 발생 경과 및 시간선

6월 12일 10:50 PT IAM 서비스 업데이트로 인한 인증 실패 시작
11:05 PT Gmail, Drive 등 GCP 서비스의 503 에러 대량 발생
12:41 PT Google이 IAM 백엔드 롤아웃 오류를 원인으로 파악
17:10 PT Dataflow, Vertex AI 등 복잡한 서비스의 완전 복구 지연

2. 기술적 영향 범위

GCP 서비스: Cloud Storage(403/500 에러), Cloud SQL/Bigtable(인증 실패), Workspace(503 간헐적 발생)
Cloudflare: Workers KV(백업 스토어 타임아웃), Access/WARP(Zero Trust 기능 중단), Durable Objects(SQLite) 메타데이터 실패
Anthropic: 파일 업로드 중단, 이미지 비전 기능 오류, 텍스트 쿼리만 제한적으로 작동

3. 복구 조치 및 대응

Google: IAM 빈더 롤백, 불량 설정 삭제, 토큰 캐시 강제 갱신
Cloudflare: Code Orange 선언, Google 엔지니어와 크로스 벤더 브리지 형성
Anthropic: 업로드 제한 → IAM 안정화 후 복구

4. 사후 분석 및 교훈

제어 평면 고장이 데이터 평면 고장보다 심각한 영향을 미침
은폐 의존성(예: Cloudflare의 Google 백엔드)이 단일 공급업체 위험을 유발
상태 페이지는 빠르고 정직하게 대응해야 함
비상 우회 경로 설계가 필수적(예: Cloudflare Access 장애 시 대체 경로)
Chaos Drill을 정기적으로 수행해야 함

결론

DevOps 팀은 제어 평면 고장 대응 전략, 은폐 의존성 점검, 비상 우회 경로 설계를 반드시 포함한 사고 대응 플레이북을 업데이트해야 함.
IAM 서비스의 업데이트 점검 및 캐니리 체크 강화를 통해 사전 예방이 필요하며, 복구 시간 최소화를 위한 자동화 프로세스를 재검토해야 함.

Google Cloud IAM authentication failures service outage dependency chain DevOps SRE

목록으로 원문 보기