LLMs가 누락 정보를 감지하지 못하는 이유" which is 30 characters. Hmm, but t
AI Store에서 AI코딩으로 만들어진 앱을 만나보세요!
지금 바로 방문하기

AbsenceBench: 언어 모델은 누락된 정보를 식별하지 못함

카테고리

프로그래밍/소프트웨어 개발

서브카테고리

인공지능, 머신러닝

대상자

  • *소프트웨어 개발자, AI 연구자, NLP 엔지니어**
  • 난이도: 중급*
  • *LLM의 정보 탐지 능력 한계와 벤치마크 설계 방법**

핵심 요약

  • LLM은 존재 정보 탐지 성능은 우수하지만, 누락 정보 탐지는 69.6% F1-score로 낮음
  • AbsenceBench는 시, 숫자 시퀀스, GitHub PR 3개 분야에서 누락 감지 능력을 평가
  • Transformer의 self-attention 메커니즘은 '공백'에 주목하기 어려움, 플레이스홀더 추가 시 성능 35.7% 상승

섹션별 세부 요약

1. 연구 배경 및 문제 정의

  • LLM의 존재 정보 탐지 능력은 뛰어나지만, 누락 정보 탐지는 한계 있음

- Needle in a Haystack(NIAH) 테스트에서 LLM은 초인간 수준 성과

- AbsenceBench에서는 성능 56.9% 감소

  • Transformer의 self-attention 메커니즘은 '공백' 트래킹 어려움

- 키 기반 주목 구조로 누락 정보 자체를 탐지하기 어려움

2. AbsenceBench 벤치마크 설계

  • 3개 도메인에서 누락 감지 평가

- 시(Poetry): Gutenberg 시어에서 한 줄씩 누락

- 숫자 시퀀스: 오름차순/내림차순 등 규칙 적용 후 일부 누락

- GitHub PRs: 오픈소스 PR의 diff 파일에서 변경 줄 일부 누락

  • 원본 문서(Dorig)와 수정본(Dmodified) 비교

- Dorig의 p% 요소 제거 후 LLM이 누락 정보를 식별하도록 요구

3. 실험 결과 및 분석

  • 14개 LLM 평가 결과

- 최신 모델 Claude-3.7-Sonnet: 5K 토큰 맥락에서 F1-score 69.6%

- inference-time compute 사용 시 성능 7.9% 상승, 3배 토큰 소모

  • 누락 비율(omission rate)에 따른 성능 변화

- 누락 비율이 낮을수록 LLM 성능도 더 낮음

- 플레이스홀더 추가 시 성능 35.7% 상승

4. 구조적 한계와 해결 방향

  • Transformer의 self-attention 메커니즘 한계

- '존재하지 않는 부분'에 주목해야 하므로 구조적으로 어려움

- NIAH(존재 정보 탐지)과 AbsenceBench(누락 정보 탐지)의 차이점 강조

  • 실무적 제안

- LLM-as-a-Judge 활용 시 신뢰성 문제 주의 필요

- 새로운 아키텍처 개발 필요성 제시

결론

  • AbsenceBench는 LLM의 누락 감지 한계를 드러내는 핵심 벤치마크

- Transformer의 self-attention 메커니즘 개선 필요

- 플레이스홀더 추가 등 기술적 대응 방안 제시

- LLM의 누락 정보 탐지 능력 향상을 위한 연구 기반 제공