머신러닝(감독 학습 vs 비감독 학습)
카테고리
데이터 과학/AI
서브카테고리
인공지능, 머신러닝
대상자
- 데이터 과학/머신러닝 초보자 및 중급자
- 감독 학습과 비감독 학습의 차이를 명확히 이해하고자 하는 학습자
- 분류 및 회귀, 클러스터링 등 알고리즘 선택 기준을 배우고자 하는 개발자/분석가
- 난이도: 중간 수준(기초 개념부터 실무 적용까지 포함)
핵심 요약
- 감독 학습은 레이블 데이터를 기반으로 분류(Classification)와 회귀(Regression)를 수행하며, 예측 정확도가 높은 편이다.
- 비감독 학습은 레이블이 없는 데이터를 기반으로 클러스터링(Clustering) 및 이상 탐지(Anomaly Detection)를 수행하며, 자동화된 데이터 구조 분석에 적합하다.
- 알고리즘 예시:
- 감독 학습: Logistic Regression
, Decision Tree
, Linear Regression
- 비감독 학습: K-Means
, DBSCAN
섹션별 세부 요약
1. 머신러닝의 정의 및 분류
- 머신러닝은 AI의 하위 분야로, 데이터를 기반으로 예측/결정을 내리는 알고리즘 개발에 초점.
- 3가지 주요 분류: 감독 학습, 비감독 학습, 강화 학습(본 문서는 감독 vs 비감독 비교에 집중).
- 감독 학습은 레이블 데이터가 필요하고, 비감독 학습은 레이블이 없는 데이터를 활용.
2. 감독 학습의 핵심 특징
- 레이블 데이터: 특성(Features, X)과 타겟(Labels, Y)이 포함된 데이터셋.
- 예: 고객의 신용 점수(특성)와 대출 연체 여부(타겟).
- 학습 과정: 트레이닝(Training) 또는 피팅(Fitting)을 통해 데이터에서 특성-타겟 관계 학습.
- 예측 타입:
- 분류: 이진 분류(예: 0/1, True/False) 또는 다중 분류(예: 3개 이상의 클래스).
- 회귀: 연속값 예측(예: 급여, 온도).
3. 감독 학습 알고리즘
- 분류 알고리즘:
- Logistic Regression Classifier
, Decision Tree Classifier
, K Nearest Neighbor Classifier
- 회귀 알고리즘:
- Linear Regression
, Random Forest Regressor
, K Nearest Neighbor Regressor
4. 비감독 학습의 핵심 특징
- 레이블이 없는 데이터를 기반으로 데이터 내부의 구조를 자동으로 파악.
- 주요 용도:
- 클러스터링: 유사한 데이터 그룹화(예: K-Means).
- 이상 탐지: 비정상 데이터 포인트 식별(예: DBSCAN).
5. 감독 vs 비감독의 차이점
- 감독 학습:
- 레이블 데이터 필요, 예측 정확도 높음, 인간의 개입이 필요.
- 사용 사례: 고객 대출 연체 예측, 이메일 스팸 필터링.
- 비감독 학습:
- 자동화된 데이터 분석, 레이블이 없어도 가능, 계산 복잡도 높음.
- 사용 사례: 고객 세그먼트 분석, 이상 트래픽 탐지.
결론
- 감독 학습은 분류/회귀 예측에, 비감독 학습은 클러스터링/이상 탐지에 적합하다.
- 레이블 데이터가 있는 경우 감독 학습 알고리즘(예:
Logistic Regression
,Linear Regression
)을, 라벨이 없는 경우 비감독 알고리즘(예:K-Means
,DBSCAN
)을 선택해야 한다. - 실무 팁: 감독 학습은 정확도가 높지만 데이터 준비가 복잡하고, 비감독 학습은 자동화가 가능하지만 해석이 어려울 수 있음.