AI 기반 와인 라벨 이미지 검색: LLM을 활용한 성능 개선 여정

📅 2025-07-14T08:25:17+09:00 👤 beatrain 🏷️ 개발, 트렌드, 기획

완성도:

0.8

🤖 AI 추천

이 콘텐츠는 AI 기술, 특히 LLM을 활용한 이미지 검색 및 자연어 처리 기술에 관심 있는 백엔드 개발자, AI/ML 엔지니어, 데이터 엔지니어에게 유용합니다. 특히 검색 기능의 성능 개선 및 다양한 기술적 문제 해결 과정에 대한 깊이 있는 이해를 원하는 미들 레벨 이상의 개발자에게 추천합니다.

🔖 주요 키워드

AI 와인 이미지 검색 LLM OCR Multi Modal Embedding Amazon Bedrock Elasticsearch Vector DB YOLOv8 성능 개선 배치 작업

핵심 기술

본 콘텐츠는 우리동네GS 앱의 '와인25플러스' 서비스에 새롭게 도입된 AI 와인 이미지 라벨 검색 기능의 개발 과정과 성능 개선 노력을 상세히 다룹니다. LLM (Claude 3 Haiku)을 활용한 OCR 텍스트 추출, Multi Modal Embedding, Elasticsearch 기반 Vector DB 구축 및 검색 로직 구현이 핵심입니다.

기술적 세부사항

서비스 배경: 오프라인 매장의 주류 정보 전달 및 고객 경험 향상을 위해 AI 기반 라벨 검색 서비스 고안.
핵심 아이디어: 와인 병 촬영 시 라벨 텍스트, 색상, 병 모양 인식 및 유사 상품 검색.
검색 방식:
- Batch Job: 등록된 주류 이미지 분석, 객체 탐지(YOLOv8)로 병만 추출, LLM(Claude 3 Haiku)으로 텍스트 정보 추출, Multi Modal Embedding (Amazon Bedrock Titan Image), Vector DB(Elasticsearch) 저장.
- Inference API: 사용자 촬영 이미지 입력, 객체 탐지(YOLOv8) 제외, LLM으로 텍스트 추출, Embedding, Elasticsearch에 Cosine Similarity 기반 검색, 0.73 이상 유사도 상품 필터링.
성능 개선 시도:
- 고화질 데이터 활용: 저화질 이미지 문제 해결을 위한 고품질 데이터 확보 및 resizing 없이 LLM OCR 적용.
- Embedding 방식 변경: 고화질 데이터는 텍스트만 Embedding하는 것이 더 유사 상품 검색에 효과적임을 발견.
- 아시아권 주류 인식률 개선: 언어 감지 기반 분기 처리 및 SigLIP 모델 활용 (영어권 외).
- 빈티지 정보 반영: LLM 프롬프트에 년도 추출 추가 및 Multi Modal Embedding에 포함.
안정성 확보: Amazon Bedrock API 호출 시 Cross-Region Inference 지원을 위한 모델 명 수정 (us.anthropic.claude-3-haiku-20240307-v1:0).
테스트 결과: 165개 상품 대상 70% 검색 성공률 기록. 온라인 취급 상품에서 높은 성능, 진열 상태 촬영 시에도 우수한 결과.