RAG 간단하게 만들기: 간결성 분석 (3부)
카테고리
프로그래밍/소프트웨어 개발
서브카테고리
인공지능
대상자
AI/자연어 처리(NLP) 개발자, RAG 시스템 구축자
난이도: 중급 이상 (AI 모델 사용, GPU 자원 이해 필요)
핵심 요약
- Phi 모델 활용:
Phi
모델을 사용해 fine-tuning 없이도 일관된 요약 생성 가능 - ChromaDB 벡터 저장소: API에서 가져온 문서를
ChromaDB
에 벡터화하여 저장 - 성능 제한: GPU 한계로 인한 느린 추론 시간 (~60초), 더 강력한 하드웨어 필요
섹션별 세부 요약
1. 시스템 실행 환경
- GPU 환경: RTX A5000 GPU 기반의 클라우드 인스턴스에서 실행
- 모델 설정:
Phi
모델 사용 시config.yml
설정으로 API 키 필요 없음 - 초기 설정 시간: 첫 실행 시 모델 가중치 및 ChromaDB 임베딩 함수 다운로드로 시간 소요
2. 시스템 성능 분석
- 긍정적인 결과:
- 여러 프롬프트 튜닝 후 일관된 요약 생성
- UI 응답 속도는 유지
- 문제점:
- 요약 생성 시간: 60초 소요 (GPU 한계로 인해)
- 인용 형식 불일치 (일부 응답은 과도한 토큰 생성)
- 문서 순위 지정: 단순 거리 기준 사용으로 정확도 향상 필요
3. 제한 및 개선 방향
- 문서 검색 시간: ~11초 소요, 하드웨어 성능 향상 필요
- 추천 개선 사항:
- 도메인 특화 데이터로 fine-tuning 적용
- 고급 리랭킹 기술 도입
- 분산 처리 아키텍처 설계
결론
- 핵심 팁: RAG 시스템 구축 시 하드웨어 제한을 고려하고,
ChromaDB
와Phi
모델의 조합을 활용할 것. 인용 형식 일관성과 문서 순위 알고리즘 개선을 통해 성능 향상 가능.