제목

오픈AI, 모델 테스트 성적표 수시 공개…"AI 안전성 체크하겠다"

카테고리

인공지능

AI 안전성, 모델 평가, 인공지능

AI 개발자, 기술 리더, 규제 기관 및 일반 사용자

- 오픈AI는 외부에 모델의 안전성 테스트 결과를 공개하는 '세이프티 이벨류에이션 허브'를 신설했다.

- 이 시스템은 주요 모델 업데이트 시마다 성능과 안전성 데이터를 정기적으로 업데이트한다.

- 목표는 모델의 안전성 문제를 사전에 파악하고 투명성을 높이는 것이다.

- 유해 콘텐츠 대응, 탈출 공격 방어, 환각률, 메시지 우선순위 준수 등 4가지 항목으로 성적을 평가한다.

- 'GPT-4.1'과 'GPT-4o'는 유해 콘텐츠 대응과 환각률에서 높은 성적을 보였으나, 경량화 모델은 여전히 높은 환각률을 기록했다.

- 'GPT-4.5'는 시스템 메시지를 우선시하는 테스트에서 가장 높은 정합성을 보였다.

- 이 시스템 도입은 최근 오픈AI가 겪은 안전성 논란과 관련이 있다.

- 모델의 유해한 행동을 방지하고, 사용자와 개발자 간의 신뢰를 강화하기 위한 목적이 있다.

- 향후 모델 업데이트 시마다 데이터를 공유함으로써 지속적인 안전성 관리가 가능해진다.

오픈AI는 모델의 안전성과 신뢰성 향상을 위해 평가 데이터를 외부에 공개하는 방식으로 투명성을 높이고, 지속적인 모니터링을 통해 문제를 사전에 파악하려는 전략을 취하고 있다.*