AI Store에서 AI코딩으로 만들어진 앱을 만나보세요!
지금 바로 방문하기

데이터 과학 초보자를 위한 인터뷰 질문 요약

카테고리

데이터 과학/AI

서브카테고리

인공지능, 머신러닝, 데이터 분석

대상자

  • *데이터 과학 초보자**

- 난이도: 기초 개념 이해 및 실무 적용 능력 평가

- 주요 분야: 머신러닝, 자연어 처리(NLP), 통계, 분류 모델

핵심 요약

  • 모델 평가 및 최적화 기술

- k-fold cross-validation은 성능 추정의 분산을 줄이고 데이터 누수를 감지함.

- Softmax는 다중 분류에서 확률 분포를 정규화하며, Sigmoid는 이진 분류에 적합.

  • 경고 지표와 오류 원인 분석

- TF-IDF는 문맥과 단어 순서를 무시해 문장 의미를 제대로 반영하지 못함.

- Multicollinearity는 회귀 모델의 계수 불안정성을 유발하며, L1/L2 정규화가 해결 방안.

  • 모델 설계 및 트레이드오프

- Dropout은 랜덤한 뉴런 비활성화를 통해 과적합 방지.

- PrecisionRecall의 우선순위는 문제 맥락(예: 스팸 필터 vs 질병 검진)에 따라 달라짐.

섹션별 세부 요약

1. 머신러닝 기초

  • Cross-validationtrain-test split보다 성능 추정의 분산을 줄임.
  • Hidden layer 증가로 복잡한 특징 학습 가능하지만, vanishing gradientsoverfitting 위험 증가.
  • KNN/SVM은 특성 스케일에 민감하지만, decision trees는 스케일에 영향 없음.

2. 자연어 처리(NLP)

  • BERTWord2Vec과 달리 양방향 문맥을 학습하며, masked language modeling을 통해 사전 훈련.
  • One-hot encoding은 대규모 어휘에서 차원 폭증과 의미 유사도 무시로 인해 비효율적.
  • NER은 다국어 모델에서 언어별 이름 형식 차이와 데이터 부족으로 인해 어려움.

3. 통계 및 회귀 분석

  • Correlation은 인과 관계를 보장하지 않음(예: 아이스크림 판매 vs 익수율).
  • Median은 극단값에 강건하며, mean보다 분포 중심을 더 잘 반영.
  • Heteroscedasticity는 OLS 가정 위반으로 추정 효율성 저하.

4. 분류 모델 평가

  • Accuracy는 불균형 데이터셋(예: 사기 탐지)에서 유용하지 않음.
  • Precision은 거짓 양성 비용이 높은 경우(예: 스팸 필터), Recall은 거짓 음성 비용이 높은 경우(예: 질병 검진) 우선시.
  • Logistic regressionhighly correlated features로 인해 계수 불안정, Regularization 필요.

결론

  • 핵심 팁: 실무 적용 시 k-fold cross-validation, Softmax 활용, Precision-Recall Trade-off 분석을 반드시 포함.
  • 예시: TF-IDF 대신 BERT의 문맥 기반 임베딩 사용, Dropout으로 과적합 방지.
  • 요약: 데이터 과학 인터뷰에서 기초 개념과 실무 적용의 균형 잡힌 이해가 필수.