데이터 과학 워크플로우의 기초 가이드
카테고리
데이터 과학/AI
서브카테고리
데이터 분석
대상자
데이터 과학 초보자, 기초적인 분석 도구 사용에 관심 있는 개발자
난이도: 기초 수준 (Python 기초 지식 필요)
핵심 요약
- 데이터 과학의 핵심 목표: "원시 데이터를 실행 가능한 정보로 전환"
- 워크플로우 주요 단계: 문제 정의 → 데이터 수집 → 평가 지표 설정 → 특성 공학 → 모델 선택/훈련/평가 → 배포
- 핵심 기술: Supervised/Unsupervised Learning 구분, Pandas, Scikit-learn, TensorFlow 등 Python 도구 활용
섹션별 세부 요약
1. 문제 정의 및 ML 유형 매칭
- 문제 정의: "해결하고자 하는 문제는 무엇인가?"
- Supervised Learning: 라벨이 있는 데이터 (예: 심장병 예측)
- Unsupervised Learning: 라벨이 없는 데이터 (예: 고객 유사성 분석)
- Reinforcement Learning: 보상/벌금 기반 학습 (예: 체스 AI)
- Transfer Learning: 기존 모델 재사용 (예: X-ray 이미지 분류)
2. 데이터 유형 분류
- 구조화된 데이터: MySQL, Excel 등에서 저장, SQL, Pandas로 분석 가능
- 비구조화된 데이터: 텍스트, 이미지, 로그 등, NLP/Computer Vision 기술 필요
- 반구조화된 데이터: JSON, XML 등, 일부 구조를 가짐
3. 성공 기준 설정
- 평가 지표 예시:
| 유형 | 지표 |
|---|---|
| 분류 | 정확도(Accuracy), F1 Score, ROC-AUC |
| 회귀 | 평균 절대 오차(MAE), RMSE |
| 추천 | Precision@K, NDCG |
4. 특성 공학
- 특성 유형:
- 수치형: 나이, 체중, 심박수
- 범주형: 성별, 심장병 유무
- 파생 특성: "연간 방문 횟수" 등 계산된 특성
5. 데이터 전처리
- 처리 과정: 결측치 처리, 중복 제거, Pandas/NumPy 활용
- EDA (탐색적 데이터 분석):
- 심장병 빈도 vs. 가슴 통증 유형 분석
- 나이와 최대 심박수 간 상관관계 시각화
6. 모델 선택 및 훈련
- 데이터 분할:
- Train(70-80%), Validation(10-15%), Test(10-15%)
- 모델 예시: CatBoost, RandomForest (구조화된 데이터 적합)
- 튜닝 기법: Grid Search, Bayesian Optimization
7. 모델 평가 및 배포
- 평가 지표: 정확도, RMSE, F1 Score 등 사용
- 배포 도구: Flask, FastAPI, Docker, Heroku 등 활용
결론
- 실무 팁: 문제 정의부터 시작해, Pandas로 데이터 전처리, Scikit-learn으로 모델 훈련, Flask로 배포하는 단계별 접근법을 따르세요.
- 핵심 원칙: 모델의 일반화 능력(Generalization)을 위해 Validation/Test 데이터 기반 평가를 필수적으로 수행해야 합니다.
- 도구 예시:
import pandas as pd
,from sklearn.model_selection import train_test_split
등 Python 라이브러리 활용 권장.