Multimodal RAG란 무엇인가?

카테고리

프로그래밍/소프트웨어 개발

인공지능

RAG(Retrieval-Augmented Generation)는 문서에서 정보를 검색하여 AI 모델의 답변을 보완하는 기법이다.
Multimodal RAG는 텍스트 외에도 이미지, 그래프, 오디오 등 다양한 모달리티를 처리할 수 있는 확장형 RAG 시스템이다.
핵심 기술 요소: MLLM(Multimodal Large Language Model), Embedding 모델(CLIP, Sentence-BERT), Vector Database(Chroma DB, FAISS)

- PDF 내 그래프 분석 → 트렌드 추출

- 제품 사진의 미세한 스크래치 식별 → 정확한 제품 설명 생성

- 회의 녹음의 강조 부분 분석 → 핵심 내용 요약

- 이미지 인식과 음성 분석은 서로 다른 기술이 필요.

- 데이터의 특성 차이: 휴가 사진의 감정 분석 vs. 건축 설계도의 세부 정보 추출.

- 그래프와 텍스트 설명의 연관성 유지

- 다양한 모달리티의 세미틱 정보 통합

- CLIP 모델로 텍스트/이미지/음성을 동일 공간에 매핑.

- 장점: 기존 RAG 시스템 활용 가능.

- 단점: 고비용의 대규모 모델 필요.

- 이미지를 텍스트로 변환 후 기존 RAG 시스템에 입력.

- 장점: 새로운 모델 구축 필요 없음.

- 단점: 이미지의 원본 정보 손실.

- 텍스트/이미지/그래프 별로 저장소 분리.

- 재랭킹 알고리즘으로 최적의 정보 추출.

- 장점: 모달리티별 전문성 강화.

- 단점: 필터링 단계 복잡성 증가.

- 여러 전략을 조합하여 최적의 성능 달성.

- MLLM, Embedding 모델, Vector DB의 조합 활용 필수.

- 모달리티별 전환/분리 전략의 선택에 따라 성능 차이 발생.

- 대규모 모델과 고성능 인프라가 필요함.