다변량 분석의 여정 #2: 대응 분석
카테고리
데이터 과학/AI
서브카테고리
데이터 분석
대상자
- 데이터 과학자, 분석가, 통계학자
- 중간~고급 수준의 수학/통계 지식 보유자
핵심 요약
- 대응 분석(Correspondence Analysis)은 범주형 데이터 간의 관계를 시각화하는 다변량 분석 기법
- 주성분 분석(PCA)과 유사하지만, 분산 분석 대신 카이제곱 통계량을 기반으로 차원 축소
- 행렬 분해 기법을 통해 행/열 카테고리 간의 상호작용을 저차원 공간에 투영
섹션별 세부 요약
1. 대응 분석의 목적 및 기본 개념
- 주요 목적: 범주형 변수 간의 상관 관계를 시각적으로 해석
- 기본 가정: 카이제곱 분포의 독립성 검정을 기반으로 데이터 변환
- 데이터 준비: 교차표(Contingency Table) 형식의 입력 데이터 필요
- 분석 결과: 스코어 플롯(Score Plot)을 통해 행/열 요인의 위치 및 밀도 분포 확인
2. 대응 분석의 수학적 기반
- 행렬 분해: 행-행렬(X)과 열-행렬(Y)을 각각 SVD(특이값 분해)로 변환
- 좌표 계산: 행/열 카테고리의 주성분 좌표는 고유값의 제곱근과 정규화된 고유벡터의 곱으로 계산
- 차원 축소: 최대 분산을 제공하는 축 선택 후 2D/3D 공간에 투영
3. 실무 적용 예시 및 주의사항
- 사용 사례: 시장 조사 데이터, 설문 응답 분석, 고객 세분화 등
- 주의 사항: 데이터의 균형성과 카이제곱 통계량의 유의성 검정 필수
- 시각화 도구: R의
ca
패키지, Python의sklearn.decomposition.FactorAnalysis
활용 가능
결론
- 대응 분석은 범주형 데이터의 복잡한 관계를 저차원 공간에 시각화하는 데 유리하며, 통계적 검정과 시각화를 결합한 분석 전략으로 활용해야 함. 카이제곱 유의성 검정을 통한 데이터 검증이 필수적임.