감도와 특이도: 분류 모델 평가의 핵심 지표
카테고리
프로그래밍/소프트웨어 개발
서브카테고리
데이터 분석
대상자
- 머신러닝/데이터 과학자, 알고리즘 개발자, 의료 분야 데이터 분석자
- 중간~고급 수준의 기술 이해도를 가진 사람들
핵심 요약
- 감도(Sensitivity) = TP / (TP + FN) → 실제 양성 사례 중 모델이 올바르게 감지한 비율
- 특이도(Specificity) = TN / (TN + FP) → 실제 음성 사례 중 모델이 올바르게 분류한 비율
- 감도 vs 특이도의 균형은 도메인 특성(의료/마케팅 등)에 따라 선택되며, ROC 곡선과 AUC를 통해 최적 점을 분석해야 함
섹션별 세부 요약
1. 혼동 행렬의 구조와 기본 개념
- 혼동 행렬의 4가지 요소: TP, FP, FN, TN
- 감도: "진짜 질병 환자 중 알고리즘이 탐지한 비율"
- 특이도: "진짜 건강한 환자 중 알고리즘이 올바르게 분류한 비율"
2. 로지스틱 회귀 모델의 감도/특이도 계산 예시
- TP = 139, FN = 32 → 감도 = 139 / (139 + 32) = 81%
- TN = 112, FP = 20 → 특이도 = 112 / (112 + 20) = 85%
3. 랜덤 포레스트 모델과의 비교
- 감도 = 83%, 특이도 = 83%
- 의료 분야에서는 감도가 높은 모델(랜덤 포레스트)이 선호됨
- 고비용 검사가 필요한 경우 특이도가 높은 모델 선호
4. 다중 클래스 문제의 감도/특이도 계산
- 3개 이상의 클래스일 경우 각 클래스별 감도/특이도 계산 필요
- 예: "Troll2" 감도 = 12 / (12 + 195) = 6%
- 다중 클래스에서는 집합 지표나 클래스 그룹화를 고려해야 함
5. 감도/특이도의 트레이드오프와 활용
- 감도 증가 → 특이도 감소 (예: 스팸 필터링에서 균형 필요)
- ROC 곡선과 AUC를 통해 최적 임계값 선택
- F1 점수 = 2 × (정밀도 × 감도) / (정밀도 + 감도)
결론
- 감도와 특이도는 모델의 실제 성능을 평가하는 핵심 지표로, 도메인의 비용 구조에 따라 선택해야 함
- 다중 클래스 문제에서는 각 클래스별 지표 계산 필요, ROC/AUC 분석을 통해 최적 모델 선택
- F1 점수는 정밀도와 감도의 균형을 고려한 종합 지표로 활용 가능