데이터 웨어하우징 및 데이터 마이닝 주요 개념 요약
카테고리
프로그래밍/소프트웨어 개발
서브카테고리
데이터 분석
대상자
데이터 웨어하우징 및 데이터 마이닝 분야의 학생과 입문자
난이도: 중간 (기초 개념과 알고리즘 이해 요구)
핵심 요약
- 데이터 마이닝의 핵심 단계와 K-means 클러스터링 알고리즘 (
K-means
,KDD Process
) - 데이터 웨어하우징의 정의 및 특징 (
Subject-Oriented
,Integrated
,Time-Variant
,Non-Volatile
) - 연결 규칙 분석과 FP-Growth 알고리즘 (
Support
,Confidence
,Frequent Itemset
,FP-Tree
)
섹션별 세부 요약
1. 데이터 마이닝 및 클러스터링
- 데이터 마이닝 정의: 데이터에서 유용한 패턴 추출, KDD 프로세스 포함
- K-means 알고리즘: 8개 포인트를 3개 클러스터로 분류, 수치 예제 포함
- WBUT 연도: 2010, 2012, 2013, 2014, 2016, 2018
2. 클러스터링의 정의 및 유형
- 클러스터링 목적: 데이터 웨어하우징 및 마이닝에서의 중요성 설명
- 분할 클러스터링 vs 계층적 클러스터링: 분류 기준 및 장단점 비교
- WBUT 연도: 2009, 2013, 2014, 2016, 2018
3. 의사결정 트리
- 의사결정 트리 정의: 분류 및 예측에 사용, 장단점 설명
- 트리 생성 원리: 정보 이득(
Information Gain
)과 이득 비율(Gain Ratio
) 평가 - WBUT 연도: 2009, 2010, 2013
4. 데이터 웨어하우징 정의
- 데이터 웨어하우징 특징: 주제 중심, 통합, 시간 변동, 비변동성
- WBUT 연도: 2009, 2018
5. OLAP 기술(ROLAP, MOLAP, HOLAP)
- ROLAP/MOLAP/HOLAP 비교: 다차원 데이터 분석 구현 방식 설명
- 각 기술의 장단점: 성능, 확장성, 복잡성 분석
- WBUT 연도: 2009, 2013
6. 트리 가지치기 및 정보 이득
- 트리 가지치기 목적: 과적합(
Overfitting
) 방지 - 가지치기 기법: 사전 가지치기(
Pre-pruning
), 사후 가지치기(Post-pruning
) - WBUT 연도: 2013, 2014
7. 연관 규칙 분석
- 연관 규칙 정의:
Support
,Confidence
,Frequent Itemset
수치 기반 분석 - Apriori 알고리즘: 최소 지원도(
min support
)와 신뢰도(min confidence
) 적용 - WBUT 연도: 2010, 2012, 2018
8. FP-Growth 알고리즘
- FP-Tree 구조: 후보 집합 생성 없이 패턴 탐색
- 알고리즘 단계: 트리 생성, 패턴 추출
- WBUT 연도: 2010, 2012, 2018
9. OLAP 연산(Slicing, Dicing 등)
- Slicing/Dicing/Roll-up/Drill-down: 다차원 데이터 분석 예제 설명
- WBUT 연도: 2017
결론
- 실무 적용 팁: 주요 알고리즘(
K-means
,FP-Growth
,Apriori
)과 개념(OLAP
,Association Rule
)을 반복 학습하고, 예제 문제를 통해 적용 능력 강화. - 시험 대비 전략: 연도별 출제 빈도(
2010, 2012, 2013, 2018
등)에 따라 고빈도 주제 우선 공부.