연간 LLM 호출 비용 25% 절감, 인턴이 도전한 시맨틱 캐싱 도입 기록
카테고리
프로그래밍/소프트웨어 개발
서브카테고리
DevOps
대상자
백엔드 엔지니어, DevOps 엔지니어 (중급 이상)
핵심 요약
- 시맨틱 캐싱을 도입해 연간 LLM 호출 비용 2.1억 원 절감
- DBSCAN 알고리즘을 활용해 채팅 데이터에서 의미 군집 추출
- gRPC + Kubernetes 기반 분리형 구조로 시맨틱 캐싱 서버 운영
섹션별 세부 요약
1. 문제 상황 및 기존 캐싱의 한계
- AI 추천 메시지 기능 사용 시 하루 1,000만 건의 채팅 요청으로 연간 9억 원의 LLM 비용 발생
- 기존 캐싱은 문자열 일치만 지원, 의미 유사도를 고려하지 않음
2. 시맨틱 캐싱 도입 전략
- 코사인 유사도 기반 유사도 임계값 설정 (예: 0.65)
- 임베딩 모델 (ex. OpenAI text-embedding-3-small) 활용
- PCA 차원 축소로 계산 효율성 향상
3. 시스템 구현 및 성능 최적화
- chromem-go 임베디드 벡터 DB 사용 (로컬 인메모리 접근)
- Kubernetes Replica 수평 확장으로 초당 100~120건 처리 성능 달성
- DBSCAN 알고리즘으로 노이즈 제거 및 의미 군집 생성 (13개 군집, 260개 대표 문장 추출)
4. 테스트 결과 및 비용 효과
- 오프라인 테스트에서 유사도 임계값 0.65 시 캐시 HIT 비율 29.55% 달성
- 온라인 테스트에서 HIT 비율 25% 기록, 연간 2.16억 원 비용 절감
5. 향후 개선 방향
- 메타데이터 기반 필터링 도입으로 캐시 HIT 정확도 향상
- 임베딩 생성 병목 해결을 위한 추가 최적화 필요
결론
- 시맨틱 캐싱은 의미 유사도 기반 캐싱으로 LLM 비용을 1,760배 절감 가능, DevOps 팀의 비용 관리 전략으로 적극 활용 권장
- Kubernetes + gRPC 기반 분리형 아키텍처는 기존 시스템에 영향 없이 시맨틱 캐싱 확장 가능
- DBSCAN은 노이즈가 많은 채팅 데이터에서 유의미한 군집 추출 가능, 비지도학습 기반의 데이터 분석 모델로 활용 추천