RAG 시스템 구축: Phi 모델을 활용한 간단한 구현 및 성능 분석 (Part 3)
🤖 AI 추천
이 콘텐츠는 Retrieval-Augmented Generation (RAG) 시스템의 개념을 이해하고, 실제 클라우드 환경에서 Phi와 같은 LLM을 활용하여 구축하려는 개발자에게 유용합니다. 특히, RAG 파이프라인 구축 시 발생할 수 있는 성능 이슈 및 개선점에 대한 현실적인 분석을 통해 실무적인 인사이트를 얻고자 하는 미들 레벨 이상의 개발자에게 추천합니다.
🔖 주요 키워드

핵심 기술
본 글은 Retrieval-Augmented Generation (RAG) 파이프라인을 구축하고, Microsoft의 Phi 모델을 활용하여 요약 생성 기능을 시연한 사례를 공유합니다. 클라우드 환경에서 RAG 시스템을 실제 구현하고 그 과정에서의 성능 및 결과물을 분석하는 데 초점을 맞추고 있습니다.
기술적 세부사항
- RAG 파이프라인 구축: API에서 문서를 검색하고, ChromaDB를 사용하여 벡터화 및 저장하는 전체적인 파이프라인을 구축했습니다.
- 언어 모델 활용: Microsoft의 Phi 모델을 생성기로 사용했으며, Mistral 모델의 경우 Hugging Face API 키가 필요함을 명시했습니다. GPT 모델도 설정 가능합니다.
- 모델 설정:
config.yml
파일을 통해 Phi 및 GPT 모델을 API 키 없이 설정할 수 있도록 구성했습니다. - 성능 분석: Phi 모델이 프롬프트 튜닝만으로 일관성 있는 요약과 인라인 인용을 생성하는 점을 '놀랍도록 좋은 출력'으로 평가했습니다.
- 벡터 스토어: 문서가 성공적으로 벡터화되어 ChromaDB에 저장됨을 확인했습니다.
- UI 반응성: 시연 중 UI가 빠르고 상호작용이 원활함을 언급했습니다.
개발 임팩트
- 실현 가능성: 자체적으로 RAG 파이프라인을 처음부터 끝까지 구축하고 클라우드에서 실행하는 것을 성공적으로 보여주었습니다.
- LLM의 잠재력: 작은 규모의 LLM조차도 컴퓨팅 요구사항이 높다는 점과 RAG의 잠재력을 시사합니다.
- 성능 개선 과제: 문서 검색 (약 11초) 및 요약 생성 (약 60초) 속도가 느린 점을 지적하며, 하드웨어 성능 향상을 통한 개선 가능성을 제시합니다.
- 정교함 부족: 일부 응답의 일관성 없는 인용 포맷과 불필요한 토큰 생성은 도메인 특화 데이터셋을 이용한 파인튜닝의 필요성을 보여줍니다.
- 랭킹 개선: 단순 거리 임계값을 사용한 문서 랭킹 방식의 한계를 인지하고, 더 고급 재랭킹 기법의 필요성을 언급합니다.
커뮤니티 반응
본 콘텐츠는 특정 커뮤니티 반응에 대한 언급이 직접적으로 포함되어 있지 않습니다.
톤앤매너
기술적 경험을 바탕으로 RAG 시스템 구축 및 활용에 대한 솔직하고 현실적인 평가를 제공하는 톤을 유지하고 있습니다. 장점과 단점을 명확히 구분하여 설명하며, 개발자로서 얻을 수 있는 인사이트를 공유하는 데 중점을 두었습니다.
📚 관련 자료
LangChain
LangChain은 RAG 시스템을 포함한 LLM 기반 애플리케이션 구축을 위한 프레임워크를 제공합니다. 이 프로젝트에서 사용된 RAG 파이프라인의 많은 구성 요소(문서 로더, 임베딩, 벡터 스토어 연동, LLM 연동 등)가 LangChain 라이브러리를 통해 구현될 수 있습니다.
관련도: 95%
Chroma
Chroma는 오픈소스 임베딩 데이터베이스로, 이 글에서 벡터 스토어로 사용된 ChromaDB의 핵심 프로젝트입니다. RAG 시스템에서 임베딩된 문서를 효율적으로 저장하고 검색하는 데 필수적인 역할을 합니다.
관련도: 90%
Hugging Face Transformers
Hugging Face Transformers 라이브러리는 PyTorch, TensorFlow, JAX 등에서 사용할 수 있는 수천 개의 사전 훈련된 모델(Phi, Mistral 등)을 제공합니다. 이 글에서 언급된 LLM(Phi, Mistral)을 로드하고 사용하는 데 직접적으로 활용될 수 있는 핵심 라이브러리입니다.
관련도: 85%