머신러닝 기초: 이상 탐지
카테고리
데이터 과학/AI
서브카테고리
인공지능
대상자
- *대상자**: 데이터 과학자, ML 엔지니어, DevOps 전문가
- *난이도**: 중간 (ML 시스템 설계 및 인프라 이해 필요)
핵심 요약
- 이상 탐지는 정확도만이 아닌 데이터, 특징, 모델 행동, 인프라까지 포함된 전체 ML 생애주기에서 필수적
- MLflow, Airflow, Kubernetes 등과 연동하여 이상 탐지 파이프라인을 자동화 및 확장해야 함
- 이상 탐지 알고리즘(예: Isolation Forest)과 지표(P90 latency, anomaly rate)를 활용한 모니터링 및 회피 전략** 필요
섹션별 세부 요약
1. **사례: 이상 탐지의 중요성**
- 2023년 Q3, 거래 금액 분포 변화로 인한 가짜 경고 증가(17%)로 인해 고객 서비스와 신규 계정 생성 중단
- 기존 모델은 정확도만 추적했으나, 특징 드리프트를 감지하지 못함
- 이상 탐지는 모델 성능 외에도 데이터, 인프라까지 포함해야 함
2. **시스템적 관점에서의 이상 탐지**
- ML 스택 모든 계층(모델 출력, 데이터 품질, 인프라 성능)에서 기준선 벗어난 상태 감지
- MLflow: 모델 버전, 파라미터, 지표 추적
- Kubernetes: 이상 탐지 서비스 마이크로서비스 배포 및 확장
- Feature Store: 특징 통계 모니터링 및 드리프트 감지
3. **이상 탐지 워크플로우**
- Training: 역사적 데이터로 Isolation Forest, One-Class SVM 등으로 기준선 설정
- Batch Validation: 데이터 품질 문제 감지
- Live Inference: 실시간 예측 및 특징 값 모니터링
- Monitoring: 인프라 지표(예: 지연 시간, 오류율) 이상 감지
4. **도구 및 기술**
- Python:
IsolationForest
로 데이터 이상 감지 (예:detect_data_anomalies
함수) - Kubernetes: 실시간 이상 탐지 서비스 배포 (리소스 요청/제한 설정)
- MLflow: 실험 기록 및 모델 파라미터 추적 (예:
log_param
,log_metric
)
5. **주요 도전 및 해결 전략**
- Stale Models: 자동 재학습으로 새로운 이상 탐지
- Feature Skew: 드리프트 감지 및 모델 재학습
- False Positives: 알림 제한 및 기준선 유지
- Data Poisoning: 입력 검증으로 방지
6. **성능 최적화 기술**
- Batching, Caching, Vectorization으로 처리량 향상
- Autoscaling으로 요청량에 따른 자동 확장
- Profiling으로 성능 병목 분석
7. **모니터링 및 보안 고려사항**
- Prometheus, Grafana, OpenTelemetry로 메트릭 수집 및 시각화
- Evidently, Datadog으로 데이터/모델 품질 모니터링
- Audit Logging, Reproducibility, 보안 정책(OPA, IAM) 적용
결론
- 이상 탐지를 ML 운영(MLOps)에 통합하고, MLflow, Airflow, Kubernetes 등으로 자동화
- 자동 재학습, 드리프트 감지, 회로 차단기 등으로 경고 과부하 및 인프라 문제 방지
- P90 latency, anomaly rate, 오류율 등 핵심 지표를 모니터링하여 SLA 준수 및 시스템 안정성 확보