구글, RAG 성능 향상 위한 ‘충분한 컨텍스트’ 개념 제안
카테고리
프로그래밍/소프트웨어 개발
서브카테고리
인공지능, 머신러닝
대상자
AI/LLM 개발자, RAG 시스템 설계자, 기업 AI 응용 프로그램 개발자
핵심 요약
- "충분한 컨텍스트(Sufficient Context)" 개념 도입: LLM이 질문에 정확한 답변을 생성할 수 있는 컨텍스트를 판단하는 기준 제시
- LLM 기반 '분류기(autorater)' 개발: 컨텍스트 충분 여부 자동 판별 가능
- "선택적 생성(Selective Generation)" 프레임워크: 모델의 정확성과 답변 비율 균형 조절 가능
섹션별 세부 요약
###1. RAG 시스템의 한계
- 모델이 불충분한 컨텍스트에서도 잘못된 답변 생성(환각) 발생
- 문서 길이 증가 시 핵심 정보 추출 실패로 신뢰성 저하
- 정답이 없어도 질문과 컨텍스트만으로 평가가능한 방식 필요
###2. 컨텍스트 분류 기준
- "충분한 컨텍스트": 질문에 대한 정확한 답변 생성 가능
- "불충분한 컨텍스트": 모델의 사전 지식에 의존해야 하거나 환각 증가
- Gemini 1.5 Pro 모델 사용 시 1-샷 학습으로 높은 F1 점수 달성
###3. 선택적 생성 프레임워크
- 중재 모델(intervention model) 사용: 주 모델의 답변 여부 결정
- 정답률 2~10% 향상 효과 관찰
- "모르겠다" 응답 유도를 위한 미세조정 수행
###4. 한계와 개선 방향
- 환각 비율 감소하지만 잘못된 정보 제공 비율 여전히 높음
- 80~90% 미만의 충분한 컨텍스트 비율 시 검색/지식 기반 개선 필요
- LLM 기반 자동 평가기 활용을 통한 컨텍스트 분류 제안
결론
- "충분한 컨텍스트" 분류기와 선택적 생성 프레임워크 적용으로 RAG 시스템의 정확성 향상 가능
- 80~90% 미만의 충분한 컨텍스트 비율 시 검색 기능 개선이 필수적
- LLM 기반 자동 평가기 도입을 통해 컨텍스트 분석 및 RAG 시스템 최적화 추천