AbsenceBench: 언어 모델은 누락된 정보를 식별하지 못함

카테고리

프로그래밍/소프트웨어 개발

인공지능, 머신러닝

- Needle in a Haystack(NIAH) 테스트에서 LLM은 초인간 수준 성과

- AbsenceBench에서는 성능 56.9% 감소

- 키 기반 주목 구조로 누락 정보 자체를 탐지하기 어려움

- 시(Poetry): Gutenberg 시어에서 한 줄씩 누락

- 숫자 시퀀스: 오름차순/내림차순 등 규칙 적용 후 일부 누락

- GitHub PRs: 오픈소스 PR의 diff 파일에서 변경 줄 일부 누락

- Dorig의 p% 요소 제거 후 LLM이 누락 정보를 식별하도록 요구

- 최신 모델 Claude-3.7-Sonnet: 5K 토큰 맥락에서 F1-score 69.6%

- inference-time compute 사용 시 성능 7.9% 상승, 3배 토큰 소모

- 누락 비율이 낮을수록 LLM 성능도 더 낮음

- 플레이스홀더 추가 시 성능 35.7% 상승

- '존재하지 않는 부분'에 주목해야 하므로 구조적으로 어려움

- NIAH(존재 정보 탐지)과 AbsenceBench(누락 정보 탐지)의 차이점 강조

- LLM-as-a-Judge 활용 시 신뢰성 문제 주의 필요

- 새로운 아키텍처 개발 필요성 제시

- Transformer의 self-attention 메커니즘 개선 필요

- 플레이스홀더 추가 등 기술적 대응 방안 제시

- LLM의 누락 정보 탐지 능력 향상을 위한 연구 기반 제공