의미론적 유사도 모델링으로 상품 추천 혁신: AI 플랫폼 활용
AI Store에서 AI코딩으로 만들어진 앱을 만나보세요!
지금 바로 방문하기

올리브영 사용자 행동 데이터로 학습한 상품 유사도 언어 모델: 전통적 속성 기반 추천을 넘어선 의미론적 유사도 모델링

카테고리

데이터 과학/AI

서브카테고리

머신러닝, 데이터 분석

대상자

  • *데이터 사이언티스트, 머신러닝 엔지니어**
  • 난이도: 고급 (AI 추천 시스템 구축, 의미론적 유사도 모델링 기술 필요)*

핵심 요약

  • 전통적 속성 기반 유사도 모델의 한계 극복: one-hot encoding으로 인한 속성 중요도 불균형 문제 해결
  • 의미론적 유사도 모델링: Sentence Transformer + MultipleNegativesRankingLoss를 활용한 문서 임베딩 기반 유사도 학습
  • 콜드 스타트 대응: 데이터 증강을 통해 속성 미보유 상품도 유사도 학습 가능

섹션별 세부 요약

1. 전통적 속성 기반 유사도 모델의 한계

  • one-hot encoding 기반 cosine similarity 사용
  • 속성 중요도 동일 적용으로 인한 유사도 과대 평가 문제 발생
  • 예: 틴트(색상 중요) vs 스킨(색상 덜 중요)의 속성 가중치 차이 무시

2. 의미론적 유사도 모델링 전략

  • 사용자 검색 행동 데이터 기반 레이블 생성 (예: 동일 키워드 클릭 상품)
  • Sentence Transformer 모델 사용 (paraphrase-multilingual-MiniLM-L12-v2, 118M 파라미터)
  • MultipleNegativesRankingLoss 적용: negative sample 없이도 학습 가능

3. 모델 학습 및 평가 방법

  • Attention 분석을 통한 카테고리별 중요 속성 파악 (예: 헤어 스프레이 vs 헤어 왁스)
  • 데이터 증강 기법: 속성 정보 삭제 후 유사도 레이블 재생성
  • 실제 비즈니스 성과: 기존 모델 대비 CTR 약 50% 개선

4. 콜드 스타트 대응 전략

  • 속성 미보유 상품 대비한 레이블 생성:
  1. 속성 완비 상품 쌍에서 무작위 선택
  2. 상품 a의 속성 정보 일부 삭제
  3. 속성 없는 a 기준으로 b와의 유사도 레이블 생성

5. 모델 평가 및 확장성

  • Attention 분석을 통한 모델 학습 효과 확인
  • 카테고리별 중요도 차이 기반 모델 정확도 검증
  • 카테고리 구체화로 인한 모델 확장성 향상

결론

  • Sentence Transformer + MultipleNegativesRankingLoss를 활용한 의미론적 유사도 모델링은 전통적 속성 기반 모델의 한계를 극복
  • 데이터 증강 및 Attention 분석을 통해 콜드 스타트 대응모델 정확도 검증 가능
  • 50% CTR 개선을 기록한 실무 성과를 바탕으로 추천 시스템 고도화 확대 예정