AI Store에서 AI코딩으로 만들어진 앱을 만나보세요!
지금 바로 방문하기

데이터 웨어하우스 및 데이터 마이닝 (DWDM) 핵심 개념 정리

카테고리

데이터 과학/AI

서브카테고리

데이터 분석

대상자

  • 데이터 웨어하우스 및 데이터 마이닝 관련 시험 (예: MAKAUT)을 준비하는 학생
  • 중간~고급 수준의 기술 개념과 알고리즘 이해가 필요

핵심 요약

  • DW/DM 핵심 용어 (ETL, OLAP, OLTP, Star Schema, KDD 등)와 데이터 전처리 (정규화, 이산화) 방법 강조
  • 분류 및 클러스터링 알고리즘 (Naive Bayes, K-means, Apriori)과 시간 시계열 분석 모델 (추세, 계절성, 곱적 모델) 요약
  • 데이터 스트림 처리 기술 (Reservoir Sampling, Sliding Window)과 웹 마이닝 (PageRank, 웹 크롤러)의 핵심 개념 정리

섹션별 세부 요약

1. 데이터 웨어하우스 및 데이터 마이닝 기초

  • DW/DM 정의: 데이터 웨어하우스 (DW)와 데이터 마이닝 (DM)의 차이점, 스타/눈꽃 스키마, OLAP (온라인 분석 처리)과 OLTP (온라인 트랜잭션 처리) 구분
  • ETL 프로세스: Extract, Transform, Load 단계와 데이터 마이닝의 KDD (지식 발견) 과정 설명
  • 데이터 전처리: 수치형 데이터의 min-max 정규화, z-score 정규화, 데이터 이산화 (Discretization) 방법

2. 분류 및 클러스터링 분석

  • 분류 알고리즘: Naive Bayes, 의사결정 나무 (Decision Tree), 정보 이득 (Information Gain) 및 이득 비율 (Gain Ratio) 적용
  • 거리 측정 방법: 유럽clidean, 맨하탄, 코사인 유사도, 자카르 유사도 사용
  • 클러스터링 알고리즘: K-means, K-medoid (PAMs), 계층적 클러스터링 (Agglomerative/Divisive 알고리즘)

3. 시간 시계열 데이터 마이닝

  • 시계열 구성 요소: 추세 (T), 계절성 (S), 주기적 변동 (C), 무작위 이동 (I)
  • 모델 유형: 덧셈 모델 (O = T + S + C + I), 곱셈 모델 (O = T × S × C × I)
  • 분석 기법: 피어슨 상관관계, 베이지안 분류 적용

4. 데이터 스트림 마이닝

  • 자주 사용되는 알고리즘: Apriori, 빈도 패턴 마이닝, 시장 바스킷 분석 (Market Basket Analysis)
  • 클래스 불균형 문제 해결 방안 (예: 정보 이득 최적화)
  • 스트림 데이터 처리 기술: Reservoir Sampling, Sliding Window 모델, Synopsis 데이터 구조 (히스토그램, 퀀타일)

5. 웹 마이닝

  • 웹 마이닝 유형: 콘텐츠 마이닝, 구조 마이닝, 사용자 행동 분석
  • 핵심 도구: 웹 크롤러, 웹 로그 분석, PageRank 알고리즘
  • 분산 데이터 마이닝 기술 적용 사례

6. 최신 트렌드 및 기술

  • 그래프 마이닝사회 네트워크 분석 (SNA) 활용
  • 데이터 스트림 관리 시스템 (DSMS)의 중요성
  • HOLAP (하이브리드 온라인 분석 처리)ROLAP/MOLAP 비교

결론

  • 고난도 시험 준비를 위해 ETL, K-means, Apriori 등 핵심 알고리즘의 이론과 예제 문제 연습이 필수
  • 시간 시계열 모델 (덧셈/곱셈)과 스트림 데이터 처리 기법 (Sliding Window)을 실무에 적용할 때 주의점 확인
  • 웹 마이닝 (PageRank) 및 최신 트렌드 (그래프 마이닝)의 실제 사례 분석을 통해 개념 이해 강화