특성 공학: 데이터 과학 성공의 숨은 힘
카테고리
데이터 과학/AI
서브카테고리
데이터 분석
대상자
- 데이터 과학자, 머신러닝 엔지니어
- 중급~고급 수준 (기술적 개념과 도메인별 예시 포함)
핵심 요약
- 특성 공학은 모델 성능에 가장 큰 영향을 주는 단계
XGBoost
,Random Forest
,Deep Neural Networks
등 고급 알고리즘보다 입력 데이터의 질이 더 중요- 핵심 기술:
One-Hot Encoding
,StandardScaler
,Target Encoding
,Feature Extraction
- 성과 예시: 특성 공학 적용 후 모델 정확도 73% → 88% 상승
섹션별 세부 요약
1. 특성 공학의 정의와 중요성
- 정의: 원시 데이터를 머신러닝 모델에 적합한 입력으로 변환하는 과정
- 핵심 원칙: "Better data beats fancier algorithms" (Peter Norvig)
- 결과: 알고리즘보다 특성의 질이 모델 성능에 더 큰 영향을 미침
2. 결측치 처리 및 스케일링 기법
- 결측치 처리:
mean
,median
,mode
,predictive models
사용 - 결측치 플래그:
is_missing
같은 이진 특성 생성 - 스케일링:
StandardScaler
: 평균 0, 표준편차 1MinMaxScaler
: 0~1 범위로 스케일링- 적용 모델:
KNN
,SVM
,Logistic Regression
3. 특성 추출 및 변환 기법
- 범주형 데이터 변환:
One-Hot Encoding
: 범주를 이진 열로 변환Label Encoding
: 범주에 숫자 할당Target Encoding
: 타겟 변수의 평균 사용- 연속형 데이터 변환:
low
,medium
,high
같은 이진/다중 범주로 분할- 사용 목적: 이상치에 민감한 모델에 유리
4. 시간/문맥 기반 특성 생성
- 시간 정보 추출: 요일, 월, 주말/휴일, 시간대
- 예: 이커머스에서
hour of purchase
로 고객 행동 패턴 분석 - 텍스트 기반 특성:
TF-IDF
,word embeddings
,text length
,sentiment scores
사용- 적용 분야: 리뷰, 이력서, 챗봇
5. 특성 선택 및 중요도 분석
- 저변동 특성 제거, 상관 분석
- 모델 기반 선택:
Lasso
,Recursive Feature Elimination (RFE)
- 도구 활용:
FeatureTools
,AutoFeat
,Kats
(시계열 분석)
6. 도메인별 특성 공학 예시
- 금융: 수익률, 이동 평균, RSI
- 의료: 연령대, BMI, 위험 점수
- 마케팅: 고객 생애 가치, 참여 점수
7. 과학과 예술의 균형
- 과학적 접근: 통계 분석, 알고리즘 성능 기반
- 예술적 접근: 도메인 인사이트, 창의성, 가설 검증
- 예시:
Debt-to-income ratio
,Loan-to-income ratio
생성
결론
- 모델 성능을 극대화하려면:
FeatureTools
,AutoFeat
같은 도구 사용으로 시간 절약- 도메인 지식을 기반으로 맞춤형 특성 생성
- 정확한 특성 선택 (예:
StandardScaler
,Target Encoding
)을 통해 모델 정확도 최대화