데이터 웨어하우스 및 데이터 마이닝 (DWDM) 핵심 개념 정리
카테고리
데이터 과학/AI
서브카테고리
데이터 분석
대상자
- 데이터 웨어하우스 및 데이터 마이닝 관련 시험 (예: MAKAUT)을 준비하는 학생
- 중간~고급 수준의 기술 개념과 알고리즘 이해가 필요
핵심 요약
- DW/DM 핵심 용어 (ETL, OLAP, OLTP, Star Schema, KDD 등)와 데이터 전처리 (정규화, 이산화) 방법 강조
- 분류 및 클러스터링 알고리즘 (Naive Bayes, K-means, Apriori)과 시간 시계열 분석 모델 (추세, 계절성, 곱적 모델) 요약
- 데이터 스트림 처리 기술 (Reservoir Sampling, Sliding Window)과 웹 마이닝 (PageRank, 웹 크롤러)의 핵심 개념 정리
섹션별 세부 요약
1. 데이터 웨어하우스 및 데이터 마이닝 기초
- DW/DM 정의: 데이터 웨어하우스 (DW)와 데이터 마이닝 (DM)의 차이점, 스타/눈꽃 스키마, OLAP (온라인 분석 처리)과 OLTP (온라인 트랜잭션 처리) 구분
- ETL 프로세스: Extract, Transform, Load 단계와 데이터 마이닝의 KDD (지식 발견) 과정 설명
- 데이터 전처리: 수치형 데이터의 min-max 정규화, z-score 정규화, 데이터 이산화 (Discretization) 방법
2. 분류 및 클러스터링 분석
- 분류 알고리즘: Naive Bayes, 의사결정 나무 (Decision Tree), 정보 이득 (Information Gain) 및 이득 비율 (Gain Ratio) 적용
- 거리 측정 방법: 유럽clidean, 맨하탄, 코사인 유사도, 자카르 유사도 사용
- 클러스터링 알고리즘: K-means, K-medoid (PAMs), 계층적 클러스터링 (Agglomerative/Divisive 알고리즘)
3. 시간 시계열 데이터 마이닝
- 시계열 구성 요소: 추세 (T), 계절성 (S), 주기적 변동 (C), 무작위 이동 (I)
- 모델 유형: 덧셈 모델 (O = T + S + C + I), 곱셈 모델 (O = T × S × C × I)
- 분석 기법: 피어슨 상관관계, 베이지안 분류 적용
4. 데이터 스트림 마이닝
- 자주 사용되는 알고리즘: Apriori, 빈도 패턴 마이닝, 시장 바스킷 분석 (Market Basket Analysis)
- 클래스 불균형 문제 해결 방안 (예: 정보 이득 최적화)
- 스트림 데이터 처리 기술: Reservoir Sampling, Sliding Window 모델, Synopsis 데이터 구조 (히스토그램, 퀀타일)
5. 웹 마이닝
- 웹 마이닝 유형: 콘텐츠 마이닝, 구조 마이닝, 사용자 행동 분석
- 핵심 도구: 웹 크롤러, 웹 로그 분석, PageRank 알고리즘
- 분산 데이터 마이닝 기술 적용 사례
6. 최신 트렌드 및 기술
- 그래프 마이닝과 사회 네트워크 분석 (SNA) 활용
- 데이터 스트림 관리 시스템 (DSMS)의 중요성
- HOLAP (하이브리드 온라인 분석 처리)와 ROLAP/MOLAP 비교
결론
- 고난도 시험 준비를 위해 ETL, K-means, Apriori 등 핵심 알고리즘의 이론과 예제 문제 연습이 필수
- 시간 시계열 모델 (덧셈/곱셈)과 스트림 데이터 처리 기법 (Sliding Window)을 실무에 적용할 때 주의점 확인
- 웹 마이닝 (PageRank) 및 최신 트렌드 (그래프 마이닝)의 실제 사례 분석을 통해 개념 이해 강화