개발 인공지능, 머신러닝

A

aitimes

2025. 06. 11

AI 환각 줄이기 위한 새로운 학습법 등장

AI, 모를 땐 모른다고 말하도록 가르쳐야"…환각 줄이는 학습법 등장

카테고리

데이터 과학/AI

서브카테고리

인공지능, 머신러닝

대상자

AI 연구자, 대규모 언어모델(LLM) 개발자, 자연어 처리(NLP) 분야 전문가

핵심 요약

강화 미세조정(RFT) 기법은 LLM의 환각(hallucination)을 줄이기 위한 새로운 학습법으로, 모델이 논리적이고 구조화된 출력을 생성하도록 보상 신호를 사용한다.
RFT는 모델이 언제 답하지 말아야 하는지를 제대로 배우지 못하는 한계가 있다.
USC 연구진의 논문 "The Hallucination Tax of Reinforcement Finetuning"은 RFT의 잠재적 한계를 분석하며, 거절 능력(refusal behavior) 향상의 중요성을 강조한다.

섹션별 세부 요약

1. RFT 기법의 개념

RFT는 보상 신호를 활용해 모델이 바람직한 행동을 학습하도록 유도하는 강화 학습 기법이다.
주요 목표는 논리적이고 구조화된 출력 생성을 통해 응답 품질 향상에 기여하는 것.
기존 방법과의 차별점은 보상 기준이 응답 정확도에 집중한다는 점.

2. RFT의 한계

RFT는 모델의 거절 능력(refusal behavior) 향상에 불충분한 영향을 미친다.
LLM이 언제 답하지 말아야 하는지를 학습하는 데 효과적이지 않음.
환각 줄이기와 관련된 실제 적용 시 한계를 드러냄.

3. USC 연구진의 논문 제안

"The Hallucination Tax of Reinforcement Finetuning" 논문은 RFT의 잠재적 한계를 분석.
연구에서는 거절 능력 향상이 환각 줄이기의 핵심 요소임을 강조.
기존 RFT 기법과 새로운 학습 전략의 결합을 통해 한계를 극복할 수 있다는 제안.

결론

LLM의 환각 줄이기 위해 거절 능력(refusal behavior) 향상과 RFT 기법의 결합이 필요하다.
모델이 "모른다"고 말하는 시점의 학습을 강화하면, 환각 발생률을 더 효과적으로 줄일 수 있음.

AI LLM 강화 미세조정 환각세 거절 능력 SUM 데이터셋 정확도

목록으로 원문 보기