13개의 중요한 생성형 인공지능(GenAI) 용어 정리
카테고리
프로그래밍/소프트웨어 개발
서브카테고리
인공지능
대상자
- 초보자 및 AI 개발자
- 기초 개념 이해를 목표로 한 학습자 및 실무자
- 난이도: 기초 수준 (전문 용어 설명 포함)
핵심 요약
- 대규모 언어 모델(LLM)은 매개변수(parameters)와 문맥길이(context window)를 통해 자연어 생성 및 문서 요약 등 다양한 작업 수행
- Transformer 아키텍처는 자기 주의(self-attention) 메커니즘을 통해 문맥 이해와 문장 생성 가능
- Embedding은 의미 기반 검색 및 문서 분류에 활용되며, 훈련 데이터(training data)의 다양성과 품질이 모델 성능에 직접 영향
섹션별 세부 요약
1. **Large Language Models (LLMs)**
- ChatGPT, Google Gemini, Claude 등 현대 AI 도구의 핵심
- 매개변수(parameters) 수와 훈련 데이터 규모에 따라 문맥 이해 및 문제 해결 능력 향상
- 예시: GPT-3는 1750억 매개변수, GPT-4는 1.76트릴리언 매개변수(추정)
2. **Pre-trained vs. Custom Models**
- Pre-trained 모델은 일반 데이터셋으로 기본 학습, Custom 모델은 Fine-tuning을 통해 산업별 언어 또는 내부 문서에 최적화
- 예시: 법무 회사가 LLM을 법적 용어에 맞게 튜닝
3. **Transformer Architecture**
- 2017년 "Attention is All You Need" 논문에서 제안
- 자기 주의(self-attention)로 문장 내 단어 관계 분석, 문맥 기반 응답 생성
- 모든 현대 LLM은 Transformer 기반
4. **Tokens & Tokenization**
- Token은 단어, 구, 구두점 등으로 분할된 텍스트 조각
- 예시: "ChatGPT is smart." → 5 tokens (Chat, GPT, is, smart, .)
- OpenAI API 요금제는 Token 수 기준으로 계산
5. **Context Length (Context Window)**
- GPT-3.5: 4,096 tokens, GPT-4: 128,000 tokens
- 긴 문맥길이는 대화 기억력 및 복잡한 쿼리 응답 능력 향상
6. **Embeddings**
- 문장/문서의 의미를 다차원 공간으로 표현
- 사용 사례: 의미 기반 검색, 추천 시스템, 문서 분류
7. **Training Data**
- 다양성 및 고품질 데이터가 모델 성능에 직접 영향
- 예시: 책, 웹사이트, 코드 등 대규모 데이터셋 활용
8. **Backpropagation**
- 오류 계산 → 매개변수 조정 → 모델 개선 반복
- AlphaGo의 학습 기반
9. **Supervised vs. Unsupervised Learning**
- Supervised: 라벨 데이터(예: 스팸 이메일 분류)
- Unsupervised: 무라벨 데이터에서 패턴 분석 (예: 고객 행동 클러스터링)
- LLMs는 두 기법 병행
10. **Zero-shot & Few-shot Learning**
- Zero-shot: 예시 없이 작업 수행 (예: 향가 작성)
- Few-shot: 몇 개의 예시 제공 후 작업 수행
11. **Knowledge Cutoff & RAG**
- Knowledge Cutoff: 훈련 데이터 기간 이후 정보 무시
- RAG(Retrieval-Augmented Generation): 외부 DB에서 정보 검색 → 최신 정보 기반 응답 생성
12. **Hallucination**
- 가상 정보 생성 (예: 잘못된 인용, 날짜, 법적 사례)
- 의료/법률 등 고위험 분야에서 사후 검증 필수
결론
- 13개 핵심 용어 이해는 GenAI 기술 활용의 기초
- 모델 출력 검증, RAG 기반 최신 정보 통합, Fine-tuning 적용으로 실무 적용성 향상
- AI 도구 사용 시는 의사결정 과정에서의 정확성 확보에 주의해야 함