오픈AI, AI 모델 안전성 평가 결과 수시 공개
AI Store에서 AI코딩으로 만들어진 앱을 만나보세요!
지금 바로 방문하기

제목

오픈AI, 모델 테스트 성적표 수시 공개…"AI 안전성 체크하겠다"

카테고리

인공지능

서브카테고리

AI 안전성, 모델 평가, 인공지능

대상자

AI 개발자, 기술 리더, 규제 기관 및 일반 사용자

  • 중간~고급 수준의 AI 이해도가 필요*

핵심 요약

  • 오픈AI는 모델의 안전성 테스트 결과를 외부에 수시로 공개하는 '세이프티 이벨류에이션 허브'를 도입했다.
  • 평가 항목은 유해 콘텐츠 대응, 탈출 공격 방어, 환각률, 메시지 우선순위 준수 등 4가지이며, 모델별 성적을 정량적으로 제공한다.
  • 이 조치는 모델의 신뢰성 향상과 안전성 논란에 대한 대응을 목적으로 한다.

섹션별 세부 요약

1. 안전성 평가 시스템 도입

- 오픈AI는 외부에 모델의 안전성 테스트 결과를 공개하는 '세이프티 이벨류에이션 허브'를 신설했다.

- 이 시스템은 주요 모델 업데이트 시마다 성능과 안전성 데이터를 정기적으로 업데이트한다.

- 목표는 모델의 안전성 문제를 사전에 파악하고 투명성을 높이는 것이다.

2. 평가 항목 및 모델 성적

- 유해 콘텐츠 대응, 탈출 공격 방어, 환각률, 메시지 우선순위 준수 등 4가지 항목으로 성적을 평가한다.

- 'GPT-4.1'과 'GPT-4o'는 유해 콘텐츠 대응과 환각률에서 높은 성적을 보였으나, 경량화 모델은 여전히 높은 환각률을 기록했다.

- 'GPT-4.5'는 시스템 메시지를 우선시하는 테스트에서 가장 높은 정합성을 보였다.

3. 조치 배경 및 목적

- 이 시스템 도입은 최근 오픈AI가 겪은 안전성 논란과 관련이 있다.

- 모델의 유해한 행동을 방지하고, 사용자와 개발자 간의 신뢰를 강화하기 위한 목적이 있다.

- 향후 모델 업데이트 시마다 데이터를 공유함으로써 지속적인 안전성 관리가 가능해진다.

결론

  • 오픈AI는 모델의 안전성과 신뢰성 향상을 위해 평가 데이터를 외부에 공개하는 방식으로 투명성을 높이고, 지속적인 모니터링을 통해 문제를 사전에 파악하려는 전략을 취하고 있다.*