AI Store에서 AI코딩으로 만들어진 앱을 만나보세요!
지금 바로 방문하기

데이터 웨어하우징 및 데이터 마이닝 주요 개념 요약

카테고리

프로그래밍/소프트웨어 개발

서브카테고리

데이터 분석

대상자

데이터 웨어하우징 및 데이터 마이닝 분야의 학생과 입문자

난이도: 중간 (기초 개념과 알고리즘 이해 요구)

핵심 요약

  • 데이터 마이닝의 핵심 단계와 K-means 클러스터링 알고리즘 (K-means, KDD Process)
  • 데이터 웨어하우징의 정의 및 특징 (Subject-Oriented, Integrated, Time-Variant, Non-Volatile)
  • 연결 규칙 분석과 FP-Growth 알고리즘 (Support, Confidence, Frequent Itemset, FP-Tree)

섹션별 세부 요약

1. 데이터 마이닝 및 클러스터링

  • 데이터 마이닝 정의: 데이터에서 유용한 패턴 추출, KDD 프로세스 포함
  • K-means 알고리즘: 8개 포인트를 3개 클러스터로 분류, 수치 예제 포함
  • WBUT 연도: 2010, 2012, 2013, 2014, 2016, 2018

2. 클러스터링의 정의 및 유형

  • 클러스터링 목적: 데이터 웨어하우징 및 마이닝에서의 중요성 설명
  • 분할 클러스터링 vs 계층적 클러스터링: 분류 기준 및 장단점 비교
  • WBUT 연도: 2009, 2013, 2014, 2016, 2018

3. 의사결정 트리

  • 의사결정 트리 정의: 분류 및 예측에 사용, 장단점 설명
  • 트리 생성 원리: 정보 이득(Information Gain)과 이득 비율(Gain Ratio) 평가
  • WBUT 연도: 2009, 2010, 2013

4. 데이터 웨어하우징 정의

  • 데이터 웨어하우징 특징: 주제 중심, 통합, 시간 변동, 비변동성
  • WBUT 연도: 2009, 2018

5. OLAP 기술(ROLAP, MOLAP, HOLAP)

  • ROLAP/MOLAP/HOLAP 비교: 다차원 데이터 분석 구현 방식 설명
  • 각 기술의 장단점: 성능, 확장성, 복잡성 분석
  • WBUT 연도: 2009, 2013

6. 트리 가지치기 및 정보 이득

  • 트리 가지치기 목적: 과적합(Overfitting) 방지
  • 가지치기 기법: 사전 가지치기(Pre-pruning), 사후 가지치기(Post-pruning)
  • WBUT 연도: 2013, 2014

7. 연관 규칙 분석

  • 연관 규칙 정의: Support, Confidence, Frequent Itemset 수치 기반 분석
  • Apriori 알고리즘: 최소 지원도(min support)와 신뢰도(min confidence) 적용
  • WBUT 연도: 2010, 2012, 2018

8. FP-Growth 알고리즘

  • FP-Tree 구조: 후보 집합 생성 없이 패턴 탐색
  • 알고리즘 단계: 트리 생성, 패턴 추출
  • WBUT 연도: 2010, 2012, 2018

9. OLAP 연산(Slicing, Dicing 등)

  • Slicing/Dicing/Roll-up/Drill-down: 다차원 데이터 분석 예제 설명
  • WBUT 연도: 2017

결론

  • 실무 적용 팁: 주요 알고리즘(K-means, FP-Growth, Apriori)과 개념(OLAP, Association Rule)을 반복 학습하고, 예제 문제를 통해 적용 능력 강화.
  • 시험 대비 전략: 연도별 출제 빈도(2010, 2012, 2013, 2018 등)에 따라 고빈도 주제 우선 공부.