개발 인공지능, 머신러닝

A

aitimes

2025. 05. 15

OpenAI AI 안전 평가 공개, 구글·메타도 문제 지적

AI 안전 문제로 지적받은 오픈AI, '안전성 평가' 수시 공개..."구글·메타도 문제" 지적

카테고리

데이터 과학/AI

서브카테고리

인공지능, 머신러닝

대상자

AI 모델 개발자, 안전성 평가 담당자, AI 기술 정책 담당자

핵심 요약

OpenAI는 '안전 평가 허브'를 통해 GPT-4o, o3, o4-미니 등 주요 모델의 안정성 평가 결과를 수시 업데이트
GPT-4.5는 환각 테스트에서 가장 강한 성능을 보였으나, 사전 훈련 비용에 비해 성능 향상이 미미
구글과 메타는 AI 연구 부서의 우선순위를 상품 개발 부서보다 낮추며, 안전성 평가를 소홀히 함

섹션별 세부 요약

1. OpenAI의 안전 평가 허브 발표

OpenAI는 GPT-4o, o3, o4-미니 등 9개 주요 모델의 안정성 평가 결과를 공개
평가 항목: 유해한 콘텐츠, 탈옥, 환각, 지침 계층 구조
o3 모델은 대부분의 안정성 지표에서 가장 우수한 성능을 보임

2. GPT-4.1의 안정성 평가

GPT-4.1은 탈옥 벤치마크에서 취약하지만, 인간의 탈옥 시도 및 환각 테스트에서는 강한 성능
이전에 기술 보고서 공개 거부로 알려진 모델

3. GPT-4.5의 평가 결과

GPT-4.5는 환각 테스트에서 최고 성능을 보였으나, 사전 훈련 비용에 비해 성능 향상 미미
이 모델은 이미 ChatGPT에서 서비스 중단됨

4. OpenAI의 안전 평가 정책 변화

OpenAI는 기존 시스템 카드 기반 평가에서 '안전 평가 허브'로 전환
안전성 평가를 제품 개발보다 우선시하는 방향으로 정책 변화

5. 구글과 메타의 AI 연구 부서 문제

구글은 Gemini 2.5 발표 시 모델 카드 공개 미비로 비난
메타는 FAIR 연구 부서의 우선순위가 MetaGenAI 제품 부서보다 낮음
조엘 피노 책임자는 FAIR 이끌며 사퇴 의사를 밝힘

결론

AI 모델의 안전성 평가는 기술적 성능과 동등한 중요도를 가져야 함
OpenAI는 '안전 평가 허브'를 통해 모델의 안정성을 수시 공개하는 방향으로 전환
구글과 메타는 AI 연구 부서의 우선순위를 재조정해야 하며, 모델 카드 및 위험성 평가 공개를 강화해야 함

AI 안전 오픈AI 안전 평가 GPT-4o 환각 테스트 메타 구글

목록으로 원문 보기