제목
카테고리
프로그래밍/소프트웨어 개발
서브카테고리
인공지능
대상자
소프트웨어 개발자, AI 엔지니어, RAG 시스템 개발자
- 난이도: 중급 (RAG 파이프라인 이해 필요)*
핵심 요약
- 기술 용어 오류 감지:
"python"
을"snake"
로,"kafka"
를"author"
로 오해하는 경우 감지 가능 (패턴 매칭 기반) - 용어 혼동 방지: 사전 정의된 용어(
SAFE_DEFINITIONS
)를 컨텍스트에 삽입하여 95%의 오류를 방지 - 복합적 접근: 사전 필터링(예:
"python"
+"reptile"
문서 제거)과 후처리(예: 창의적 해석 감지) 병행
섹션별 세부 요약
1. 문제 상황
- RAG 파이프라인에서
"python"
→"snake"
,"kafka"
→"author"
등 기술 용어 오류 발생 - 엔지니어링 팀의 신뢰 상실, CTO의 "문학적 설명" 비판
- 47개의 용어 오류 발생 (정리 후 2개 남음)
2. 감지 방법
- 패턴 매칭:
"python"
과"snake"
같이 연결된 단어 감지 - 시간 소요: 80ms (정확성 vs. 성능 균형)
- 예시:
"circuit breaker"
→"electrical safety device"
오류 감지
3. 예방 전략
- 용어 사전 삽입:
```python
SAFE_DEFINITIONS = {
"python": "high-level programming language",
"kafka": "distributed event streaming platform"
}
```
- 컨텍스트 강제 삽입: 회사 용어집을 문서 최상단에 추가
4. 테스트 결과
- 사전 필터링 + 후처리: 95%의 용어 오류 방지
- 시간 증가: +80ms (신뢰 회복의 대가)
- 추가 문제:
"git"
→"British slang"
오류 예상
결론
- 핵심 팁: 기술 용어 오류는
pattern matching
+glossary injection
+prompt 강제 정의
복합 전략으로 해결 - 실무 적용:
TerminologyValidator
클래스와SAFE_DEFINITIONS
사전을 RAG 파이프라인에 통합 - 예제:
```python
TERMINOLOGY_PROMPT = """
CRITICAL: For these terms, ONLY use technical meanings:
- Python (programming language, NEVER the snake)
"""
```