BGP 처리 버그로 인해 인터넷 라우팅 불안정성 발생
카테고리
Infra/DevOps/보안
서브카테고리
네트워크 프로토콜
대상자
네트워크 엔지니어 및 인프라 운영자
- 난이도: 고급 (BGP 프로토콜 이해 및 네트워크 장비 설정 경험 필요)
핵심 요약
- BGP Prefix-SID Attribute 오류로 인해 2025년 5월 20일 대규모 라우팅 불안정 발생
- JunOS와 Arista EOS의 BGP 오류 내성 처리 허점이 사태 확산의 주요 원인
- 트랜짓 캐리어 Hutchison(AS9304) 및 Starcloud(AS135338)가 손상된 메시지 전파로 약 100개 네트워크에 영향
섹션별 세부 요약
###1. 사건 개요 및 원인 분석
- BGP Update 메시지 내 Prefix-SID Attribute의 0x00 패딩 오류로 인한 세션 리셋
- RFC7606 기준으로 대부분 구현체는 필터링했으나 JunOS와 Arista EOS는 예외 반응
- JunOS는 메시지 전달, Arista EOS는 세션 종료로 10분간 접속 단절 유발
###2. 영향 확산 및 피해 분석
- 트랜짓 캐리어의 잘못된 Attribute 추가로 156.230.0.0/16 등 주요 Prefix 영향
- bgp.tools 분석 결과, 초기 메시지 후 100개 이상 네트워크에서 라우팅 churn(변동) 발생
- BGP 세션 리셋 폭증(10초당 15만건 이상)으로 광범위한 인터넷 장애 신호
###3. 기술적 문제점 및 시사점
- BGP Prefix-SID Attribute은 내부 세션 전용이지만 외부 세션 구성 오류로 글로벌 누출
- JunOS의 메시지 전체 점검 미비로 다른 피어/고객에게 오류 전달 가능성
- Postel's Law(관대하게 받고, 구체적으로 내보내기)가 보안 및 프로토콜 복잡성 야기
###4. 실무적 대응 및 개선 방향
- BGP 오류 내성 강화 및 RFC7606 준수 필요
- CVE-2023-4481, CVE-2023-38283 등 기존 취약점 패치 확대
- BGP 시뮬레이터(Bird, FRR, GNS3) 활용한 테스트 환경 구축 권장
결론
- BGP 오류 내성 강화와 RFC7606 준수를 통해 트랜짓 캐리어 및 네트워크 장비의 오류 전파 방지가 필수적
- 네트워크 시뮬레이터(GNS3, FRR)를 활용한 BGP 테스트 환경 구축으로 사전 예방 필요
- Postel's Law의 한계를 인지하고 엄격한 오류 처리 규칙 수립해야 함