개발 머신러닝, 데이터 분석

S

surfit

2025. 06. 04

의미론적 유사도 모델링으로 상품 추천 혁신: AI 플랫폼 활용

올리브영 사용자 행동 데이터로 학습한 상품 유사도 언어 모델: 전통적 속성 기반 추천을 넘어선 의미론적 유사도 모델링

카테고리

데이터 과학/AI

서브카테고리

머신러닝, 데이터 분석

대상자

*데이터 사이언티스트, 머신러닝 엔지니어**
난이도: 고급 (AI 추천 시스템 구축, 의미론적 유사도 모델링 기술 필요)*

핵심 요약

전통적 속성 기반 유사도 모델의 한계 극복: one-hot encoding으로 인한 속성 중요도 불균형 문제 해결
의미론적 유사도 모델링: Sentence Transformer + MultipleNegativesRankingLoss를 활용한 문서 임베딩 기반 유사도 학습
콜드 스타트 대응: 데이터 증강을 통해 속성 미보유 상품도 유사도 학습 가능

섹션별 세부 요약

1. 전통적 속성 기반 유사도 모델의 한계

one-hot encoding 기반 cosine similarity 사용
속성 중요도 동일 적용으로 인한 유사도 과대 평가 문제 발생
예: 틴트(색상 중요) vs 스킨(색상 덜 중요)의 속성 가중치 차이 무시

2. 의미론적 유사도 모델링 전략

사용자 검색 행동 데이터 기반 레이블 생성 (예: 동일 키워드 클릭 상품)
Sentence Transformer 모델 사용 (paraphrase-multilingual-MiniLM-L12-v2, 118M 파라미터)
MultipleNegativesRankingLoss 적용: negative sample 없이도 학습 가능

3. 모델 학습 및 평가 방법

Attention 분석을 통한 카테고리별 중요 속성 파악 (예: 헤어 스프레이 vs 헤어 왁스)
데이터 증강 기법: 속성 정보 삭제 후 유사도 레이블 재생성
실제 비즈니스 성과: 기존 모델 대비 CTR 약 50% 개선

4. 콜드 스타트 대응 전략

속성 미보유 상품 대비한 레이블 생성:

속성 완비 상품 쌍에서 무작위 선택
상품 a의 속성 정보 일부 삭제
속성 없는 a 기준으로 b와의 유사도 레이블 생성

5. 모델 평가 및 확장성

Attention 분석을 통한 모델 학습 효과 확인
카테고리별 중요도 차이 기반 모델 정확도 검증
카테고리 구체화로 인한 모델 확장성 향상

결론

Sentence Transformer + MultipleNegativesRankingLoss를 활용한 의미론적 유사도 모델링은 전통적 속성 기반 모델의 한계를 극복
데이터 증강 및 Attention 분석을 통해 콜드 스타트 대응 및 모델 정확도 검증 가능
50% CTR 개선을 기록한 실무 성과를 바탕으로 추천 시스템 고도화 확대 예정

추천 시스템 상품 유사도 의미론적 유사도 AI 플랫폼 사용자 행동 데이터 Language Model 속성 기반 추천

목록으로 원문 보기