토스쇼핑 카탈로그 자동화를 위한 AI/ML 도입 여정: OCR, LLM, Prompt Chaining 활용 전략
🤖 AI 추천
토스쇼핑의 카탈로그 자동화 프로젝트 경험을 통해 머신러닝 엔지니어는 복잡한 커머스 운영 업무를 AI로 해결하는 실질적인 방법을 배울 수 있습니다. 특히 이미지 기반 상품 정보 추출 및 표준화 과정에서 OCR, LLM, Prompt Chaining 등 최신 AI 기술을 어떻게 조합하고 적용하는지에 대한 인사이트를 얻을 수 있습니다. 또한, 사람과 AI의 협업 모델에서 완전 자동화로 전환하는 과정에서의 고민과 의사결정 과정을 이해하고, AI 모델 성능 향상을 위한 구체적인 방법론과 시스템 구축 경험을 공유받을 수 있습니다. 이러한 내용은 머신러닝 엔지니어뿐만 아니라 AI 기반 서비스 기획자, 프로덕트 매니저 등 관련 분야 실무자들에게도 큰 도움이 될 것입니다.
🔖 주요 키워드

핵심 기술
토스쇼핑은 5만 명의 셀러와 방대한 상품 데이터를 효율적으로 관리하기 위해, AI/ML 기술을 활용한 카탈로그 자동화 시스템을 성공적으로 구축했습니다. 기존 수작업 방식으로는 처리 속도 한계와 막대한 인력 소요가 예상되었으나, 머신러닝 엔지니어 이동준님은 OCR, LLM, Prompt Chaining 등 최신 AI 기술을 통합하여 이 문제를 해결했습니다.
기술적 세부사항
- 문제 정의: 수작업 기반 카탈로그 작업의 비효율성 및 700명 인력 필요성 진단.
- 목표 설정: 단순 효율 개선을 넘어 작업 스케일 자체를 해결하는 완전 자동화 추구.
- 수작업 분석: 현장 관찰을 통해 상품명, 옵션 추출 및 동일 상품 판단 기준 등 수작업 패턴 이해.
- AI 모델 설계:
- OCR (Optical Character Recognition): 이미지 내 텍스트 정보 정확도 향상.
- LLM (Large Language Model): 상품명, 옵션 등 핵심 정보 추출 및 카탈로그명 생성.
- Few-shot Learning: 카테고리별 우수 사례 제공을 통한 모델 성능 제고.
- Prompt Chaining: 복잡한 작업을 단계별로 분해하여 (초안 생성 → 문장 교정 → 검수 → 근거 기반 수정) LLM 성능 극대화.
- 자동화 기준 설정:
- 신규 카탈로그명 생성: 필요한 정보 포함 여부.
- 동일 상품 묶기: Precision 0.95 이상 (타 상품 오분류 최소화).
- Human-in-the-loop: 기준 점수 이상은 자동 통과, 미만은 사람 검토하는 방식 적용.
- 시스템 구축: 카탈로그 팀, ML Platform팀, DevOps팀과의 협업을 통한 GPU 기반 자동화 시스템 구현.
개발 임팩트
- 인력 절감: '700명의 인력' 없이 대부분의 카탈로그 작업 자동화 성공.
- 처리 속도 향상: 신규 상품 제시간 내 처리 가능, 시스템 안정화.
- 성과 달성: 신규 카탈로그 생성 시 '5점' 비율 90% 달성, 동일 상품 묶기 Precision 98% 달성.
- 팀 효율성 증대: 팀원들이 더 중요하고 부가가치가 높은 업무에 집중 가능.
커뮤니티 반응
- (원문에서 직접적인 커뮤니티 반응 언급은 없으나, 내부 미팅 및 팀 간 협업 과정이 상세히 기술됨)
톤앤매너
기술적 도전 과제와 해결 과정을 명확하게 제시하며, 실제 업무 적용 사례를 바탕으로 실무자들에게 유용한 인사이트를 제공하는 전문적이고 분석적인 톤을 유지합니다.
📚 관련 자료
Tesseract OCR
Open-source OCR engine으로, 이미지에서 텍스트를 추출하는 데 사용된 기술의 기반이 됩니다. 토스쇼핑 사례에서 이미지 내 상품명, 옵션 등 텍스트 정보를 정확하게 인식하기 위해 OCR 기술이 활용되었으며, Tesseract는 이러한 종류의 작업에 널리 사용되는 대표적인 라이브러리입니다.
관련도: 90%
Hugging Face Transformers
LLM을 포함한 다양한 사전 학습된 트랜스포머 모델을 쉽게 사용할 수 있게 해주는 라이브러리입니다. 토스쇼핑에서 상품 정보 추출 및 카탈로그명 생성을 위해 LLM을 활용했으며, Hugging Face 라이브러리는 이러한 모델의 학습, 파인튜닝, 추론에 필수적인 역할을 합니다.
관련도: 95%
LangChain
LLM 기반 애플리케이션 개발을 위한 프레임워크로, 여러 LLM 호출을 체인 형태로 연결하는 'Prompt Chaining' 구현을 지원합니다. 토스쇼핑에서 복잡한 카탈로그 자동화 작업을 단계별로 처리하기 위해 Prompt Chaining 기법을 사용했으며, LangChain은 이러한 복잡한 LLM 워크플로우를 구축하는 데 유용한 도구입니다.
관련도: 85%