올리브영 사용자 행동 데이터로 학습한 상품 유사도 언어 모델: 전통적 속성 기반 추천을 넘어선 의미론적 유사도 모델링
카테고리
데이터 과학/AI
서브카테고리
머신러닝, 데이터 분석
대상자
- *데이터 사이언티스트, 머신러닝 엔지니어**
- 난이도: 고급 (AI 추천 시스템 구축, 의미론적 유사도 모델링 기술 필요)*
핵심 요약
- 전통적 속성 기반 유사도 모델의 한계 극복: one-hot encoding으로 인한 속성 중요도 불균형 문제 해결
- 의미론적 유사도 모델링: Sentence Transformer + MultipleNegativesRankingLoss를 활용한 문서 임베딩 기반 유사도 학습
- 콜드 스타트 대응: 데이터 증강을 통해 속성 미보유 상품도 유사도 학습 가능
섹션별 세부 요약
1. 전통적 속성 기반 유사도 모델의 한계
- one-hot encoding 기반 cosine similarity 사용
- 속성 중요도 동일 적용으로 인한 유사도 과대 평가 문제 발생
- 예: 틴트(색상 중요) vs 스킨(색상 덜 중요)의 속성 가중치 차이 무시
2. 의미론적 유사도 모델링 전략
- 사용자 검색 행동 데이터 기반 레이블 생성 (예: 동일 키워드 클릭 상품)
- Sentence Transformer 모델 사용 (paraphrase-multilingual-MiniLM-L12-v2, 118M 파라미터)
- MultipleNegativesRankingLoss 적용: negative sample 없이도 학습 가능
3. 모델 학습 및 평가 방법
- Attention 분석을 통한 카테고리별 중요 속성 파악 (예: 헤어 스프레이 vs 헤어 왁스)
- 데이터 증강 기법: 속성 정보 삭제 후 유사도 레이블 재생성
- 실제 비즈니스 성과: 기존 모델 대비 CTR 약 50% 개선
4. 콜드 스타트 대응 전략
- 속성 미보유 상품 대비한 레이블 생성:
- 속성 완비 상품 쌍에서 무작위 선택
- 상품 a의 속성 정보 일부 삭제
- 속성 없는 a 기준으로 b와의 유사도 레이블 생성
5. 모델 평가 및 확장성
- Attention 분석을 통한 모델 학습 효과 확인
- 카테고리별 중요도 차이 기반 모델 정확도 검증
- 카테고리 구체화로 인한 모델 확장성 향상
결론
- Sentence Transformer + MultipleNegativesRankingLoss를 활용한 의미론적 유사도 모델링은 전통적 속성 기반 모델의 한계를 극복
- 데이터 증강 및 Attention 분석을 통해 콜드 스타트 대응 및 모델 정확도 검증 가능
- 50% CTR 개선을 기록한 실무 성과를 바탕으로 추천 시스템 고도화 확대 예정