AI 아키텍트의 도구킷: 감독 학습과 비감독 학습의 핵심 패러다임 탐색

카테고리

데이터 과학/AI

인공지능, 머신러닝

AI 아키텍트, 데이터 과학자, 머신러닝 엔지니어

감독 학습(SL)의 핵심: 레이블이 있는 데이터를 기반으로 예측 수행 (예: Linear Regression, SVM, Neural Networks)
비감독 학습(USL)의 핵심: 레이블이 없는 데이터에서 패턴/구조 탐색 (예: K-Means, PCA, Isolation Forest)
아키텍처 고려사항: SL은 MLOps 및 데이터 라벨링 파이프라인 필요, USL은 데이터 레이크 및 인터프리테이션 도구 필수

- 분류 (Classification): Spam/Not Spam, Binary/Multi-class Classification

- 회귀 (Regression): House Price Prediction, Stock Market Forecasting

- Data Labeling Pipeline: 인력 기반/활성 학습 전략 필요

- MLOps: 모델 배포 및 모니터링 필수 (API, Batch Process)

- Scalability: Spark, AWS SageMaker 등 분산 컴퓨팅 활용

- 군집 (Clustering): Customer Segmentation, Anomaly Detection

- 차원 축소 (Dimensionality Reduction): PCA, t-SNE, UMAP

- 이상 탐지 (Anomaly Detection): One-Class SVM, Isolation Forest

- Data Lake: 비구조화된 데이터 저장 및 처리 필수

- Interpretability Tools: 시각화/대화형 탐색 도구 필요 (t-SNE, UMAP 시각화)

- Iterative Design: 실험 환경 및 유연한 파이프라인 필요

- 레이블 데이터 부족 및 비용

- Bias in Labels: 편향된 레이블로 인한 모델 편향

- Overfitting 및 Cold Start Problem

- Evaluation Difficulty: Ground Truth 없이 성능 평가 어려움

- Interpretability: 인간 해석 필요 (Clustering, Dimensionality Reduction 결과)

- SL: 레이블 데이터가 충분한 경우 (Customer Churn, Fraud Detection)

- USL: 레이블 데이터 부족 시 (Anomaly Detection, Customer Segmentation)

- SL은 MLOps와 Data Labeling Pipeline을 통합, USL은 Data Lake와 Interpretability Tool 사용

- Scalability를 위해 Spark, AWS SageMaker 등 분산 인프라 활용

- Bias와 Data Drift를 방지하기 위한 Data Governance 및 Model Monitoring 필수