개발 데이터 분석

D

dev_to

2025. 07. 03

감도와 특이도: 분류 모델 평가의 핵심 지표

카테고리

프로그래밍/소프트웨어 개발

서브카테고리

데이터 분석

대상자

머신러닝/데이터 과학자, 알고리즘 개발자, 의료 분야 데이터 분석자
중간~고급 수준의 기술 이해도를 가진 사람들

핵심 요약

감도(Sensitivity) = TP / (TP + FN) → 실제 양성 사례 중 모델이 올바르게 감지한 비율
특이도(Specificity) = TN / (TN + FP) → 실제 음성 사례 중 모델이 올바르게 분류한 비율
감도 vs 특이도의 균형은 도메인 특성(의료/마케팅 등)에 따라 선택되며, ROC 곡선과 AUC를 통해 최적 점을 분석해야 함

섹션별 세부 요약

1. 혼동 행렬의 구조와 기본 개념

혼동 행렬의 4가지 요소: TP, FP, FN, TN
감도: "진짜 질병 환자 중 알고리즘이 탐지한 비율"
특이도: "진짜 건강한 환자 중 알고리즘이 올바르게 분류한 비율"

2. 로지스틱 회귀 모델의 감도/특이도 계산 예시

TP = 139, FN = 32 → 감도 = 139 / (139 + 32) = 81%
TN = 112, FP = 20 → 특이도 = 112 / (112 + 20) = 85%

3. 랜덤 포레스트 모델과의 비교

감도 = 83%, 특이도 = 83%
의료 분야에서는 감도가 높은 모델(랜덤 포레스트)이 선호됨
고비용 검사가 필요한 경우 특이도가 높은 모델 선호

4. 다중 클래스 문제의 감도/특이도 계산

3개 이상의 클래스일 경우 각 클래스별 감도/특이도 계산 필요
예: "Troll2" 감도 = 12 / (12 + 195) = 6%
다중 클래스에서는 집합 지표나 클래스 그룹화를 고려해야 함

5. 감도/특이도의 트레이드오프와 활용

감도 증가 → 특이도 감소 (예: 스팸 필터링에서 균형 필요)
ROC 곡선과 AUC를 통해 최적 임계값 선택
F1 점수 = 2 × (정밀도 × 감도) / (정밀도 + 감도)

결론

감도와 특이도는 모델의 실제 성능을 평가하는 핵심 지표로, 도메인의 비용 구조에 따라 선택해야 함
다중 클래스 문제에서는 각 클래스별 지표 계산 필요, ROC/AUC 분석을 통해 최적 모델 선택
F1 점수는 정밀도와 감도의 균형을 고려한 종합 지표로 활용 가능

sensitivity specificity machine learning classification metrics ROC curves AUC data science

목록으로 원문 보기