연세대, WEB-SHEPHERD로 AI 에이전트 성능 개선

연세대, 웹 브라우저 AI 에이전트 성능 개선하는 보상 모델 ‘웹-셰퍼드’ 소개

카테고리

프로그래밍/소프트웨어 개발

서브카테고리

인공지능, 머신러닝

대상자

AI 개발자, 웹 에이전트 연구자, 머신러닝 엔지니어

핵심 요약

  • 웹-셰퍼드(WEB-SHEPHERD)는 웹 탐색 과정에서 AI 에이전트의 행동을 한 단계씩 평가하는 최초의 과정 보상 모델(Process Reward Model)이다.
  • 체크리스트 기반 평가단계별 보상을 통해 기존의 이진 피드백 방식보다 정확도와 효율성이 향상되었다.
  • 웹리워드벤치(WebRewardBench)웹PRM 컬렉션을 통해 대규모 데이터셋 및 벤치마크를 구축하여 모델 성능을 검증했다.

섹션별 세부 요약

1. 웹 에이전트 개발의 어려움

  • 웹 탐색은 사용자 목표 해석, 클릭/스크롤 등 다단계 작업 수행, 동적 정보 처리 등 복잡한 과제를 요구한다.
  • 기존 GPT-4o나 GPT-4o-미니 같은 멀티모달 모델은 비용이 높고, 긴 작업 시퀀스에서는 부정확한 평가를 내리는 문제가 있었다.

2. 웹-셰퍼드 모델의 개발

  • 웹 탐색 과정을 하위 목표 단위로 체크리스트로 구성하고, 각 단계의 성공 여부를 평가하여 보상을 할당한다.
  • 예측 결과는 '예(Yes)', '아니오(No)', '진행 중(In Progress)' 등으로 구분된다.

3. 웹-셰퍼드의 성능 및 데이터셋

  • 웹PRM 컬렉션은 4만개의 단계별 작업 쌍과 체크리스트로 구성된 대규모 데이터셋이다.
  • 웹리워드벤치는 PRM의 성능을 평가할 수 있는 첫 번째 벤치마크로, 웹-셰퍼드의 성능 검증에 활용되었다.

4. 웹-셰퍼드의 성과와 효율성

  • 웹리워드벤치에서 평균 점수 87.6%, 경로 정확도 55%를 기록하며, GPT-4o-미니보다 훨씬 우수한 성능을 보였다.
  • 비용 효율성 측면에서는 기존 방법보다 10배 이상 효율적이었다.

5. 추가 실험 결과

  • 체크리스트와 피드백 기능이 없으면 웹-셰퍼드의 성능이 크게 떨어진다는 점을 실험을 통해 확인하였다.
  • 멀티모달 입력(텍스트+이미지)이 항상 도움이 되는 것은 아니며, 부정적인 영향을 줄 수 있음을 밝혔다.

결론

  • 웹-셰퍼드는 웹 탐색 AI 에이전트의 성능을 향상시키는 혁신적인 보상 모델로, 체크리스트 기반 평가단계별 보상이 핵심 요소이다.
  • 연구진은 웹-셰퍼드의 가중치와 코드를 허깅페이스와 깃허브에 공개하여, 개발자들이 활용할 수 있도록 했다.