AI 데이터 분석의 기초: 정형/비정형 데이터와 Tidy Data
AI Store에서 AI코딩으로 만들어진 앱을 만나보세요!
지금 바로 방문하기

AI 데이터 분석을 위해 꼭 알아야 할 데이터 기본기

카테고리

데이터 과학/AI

서브카테고리

데이터 분석

대상자

데이터 분석 초보자, AI 개발자, 비즈니스 분석가 | 기초 개념 이해와 실무 적용에 초점

핵심 요약

  • 정형/비정형 데이터, 숫자형/범주형 데이터 타입을 구분하는 것이 AI 분석의 기초
  • Tidy Data의 조건(변수=열, 관측치=행)은 데이터 분석 도구의 효율성을 결정
  • EDA(탐색적 데이터 분석)Feature Engineering은 인사이트 도출의 핵심 과정

섹션별 세부 요약

1. AI 데이터 분석의 목적과 흐름

  • 데이터 분석의 두 가지 목적: Y(결과)를 X(변수)로 설명 또는 X를 조절해 Y 개선
  • 분석 단계: 수집 → 묘사 → 패턴 발견 → 예측 → 활용
  • 주요 분석 기술: 기술묘사 분석, EDA, 예측/추론 분석

2. 데이터 종류와 특징

  • 정형 데이터: 테이블 형식, SQL/BI 도구 활용 가능 (예: CRM 데이터)
  • 비정형 데이터: 텍스트/이미지 등, NLP/컴퓨터 비전 필요 (예: 이메일 본문)
  • 숫자형: 이산형(예: 가족 수), 연속형(예: 키)
  • 범주형: 명목형(예: 성별), 순서형(예: 만족도 등급)

3. Tidy Data의 조건

  • 변수(Variable)열(Column)에, 관측치(Observation)행(Row)에 할당
  • 예: 고객 정보 데이터에서 "나이"는 변수, "고객 A"는 관측치

4. 원시 데이터 vs 요약 데이터

  • 원시 데이터: 분석 가능성이 높지만 처리 시간이 오래 걸림
  • 요약 데이터: 특정 질문에 빠르게 답변 가능하지만 다른 질문에 대응 불가

5. EDA의 핵심 과정

  • 데이터 구조 파악, 품질 점검, 핵심 지표 요약, 시각화, 가설 생성
  • HEARTCOUNT 같은 도구로 자동화 가능

6. Feature Engineering의 중요성

  • Feature: Y(결과) 예측을 위한 X(입력 변수)
  • Feature Engineering: 기존 변수 조합/계산으로 예측력 향상 (예: BMI 계산)

결론

  • 원시 데이터로 분석 시작하고, EDA를 통해 데이터 특성을 파악한 후 Feature Engineering으로 모델 성능 개선
  • HEARTCOUNT 같은 도구 활용 시 자동화된 EDA시각화 기능으로 효율성 향상 가능