데이터 과학 초보자를 위한 인터뷰 질문 요약
카테고리
데이터 과학/AI
서브카테고리
인공지능, 머신러닝, 데이터 분석
대상자
- *데이터 과학 초보자**
- 난이도: 기초 개념 이해 및 실무 적용 능력 평가
- 주요 분야: 머신러닝, 자연어 처리(NLP), 통계, 분류 모델
핵심 요약
- 모델 평가 및 최적화 기술
- k-fold cross-validation
은 성능 추정의 분산을 줄이고 데이터 누수를 감지함.
- Softmax
는 다중 분류에서 확률 분포를 정규화하며, Sigmoid
는 이진 분류에 적합.
- 경고 지표와 오류 원인 분석
- TF-IDF
는 문맥과 단어 순서를 무시해 문장 의미를 제대로 반영하지 못함.
- Multicollinearity
는 회귀 모델의 계수 불안정성을 유발하며, L1/L2 정규화
가 해결 방안.
- 모델 설계 및 트레이드오프
- Dropout
은 랜덤한 뉴런 비활성화를 통해 과적합 방지.
- Precision
과 Recall
의 우선순위는 문제 맥락(예: 스팸 필터 vs 질병 검진)에 따라 달라짐.
섹션별 세부 요약
1. 머신러닝 기초
Cross-validation
은train-test split
보다 성능 추정의 분산을 줄임.Hidden layer
증가로 복잡한 특징 학습 가능하지만,vanishing gradients
와overfitting
위험 증가.KNN/SVM
은 특성 스케일에 민감하지만,decision trees
는 스케일에 영향 없음.
2. 자연어 처리(NLP)
BERT
는Word2Vec
과 달리 양방향 문맥을 학습하며,masked language modeling
을 통해 사전 훈련.One-hot encoding
은 대규모 어휘에서 차원 폭증과 의미 유사도 무시로 인해 비효율적.NER
은 다국어 모델에서 언어별 이름 형식 차이와 데이터 부족으로 인해 어려움.
3. 통계 및 회귀 분석
Correlation
은 인과 관계를 보장하지 않음(예: 아이스크림 판매 vs 익수율).Median
은 극단값에 강건하며,mean
보다 분포 중심을 더 잘 반영.Heteroscedasticity
는 OLS 가정 위반으로 추정 효율성 저하.
4. 분류 모델 평가
Accuracy
는 불균형 데이터셋(예: 사기 탐지)에서 유용하지 않음.Precision
은 거짓 양성 비용이 높은 경우(예: 스팸 필터),Recall
은 거짓 음성 비용이 높은 경우(예: 질병 검진) 우선시.Logistic regression
은highly correlated features
로 인해 계수 불안정,Regularization
필요.
결론
- 핵심 팁: 실무 적용 시
k-fold cross-validation
,Softmax
활용,Precision-Recall Trade-off
분석을 반드시 포함. - 예시:
TF-IDF
대신BERT
의 문맥 기반 임베딩 사용,Dropout
으로 과적합 방지. - 요약: 데이터 과학 인터뷰에서 기초 개념과 실무 적용의 균형 잡힌 이해가 필수.