외부 데이터 없이 스스로 배우고 성장하는 '자기주도형' 추론 모델 등장
카테고리
데이터 과학/AI
서브카테고리
머신러닝
대상자
AI 연구자, 머신러닝 엔지니어, 데이터 과학자
핵심 요약
- 앱솔루트 제로(AZR)는 외부 데이터 없이 스스로 학습 과제를 생성하고 해결하는 자기주도형 학습 모델로, RLVR(검증 가능한 보상 기반 강화학습)의 새로운 패러다임을 제시
- AZR-Coder-7B는 수학 및 코딩 추론 벤치마크에서 기존 최고 모델 대비 1.8%포인트 높은 성능 달성
- 모델 규모 확장성이 뛰어나, 14B 모델은 3B 모델 대비 13.2%포인트 더 높은 외부 데이터 추론 능력 보임
섹션별 세부 요약
- AZR 모델 개요
- 외부 데이터 의존도 제거로 학습 과제 생성-해결을 통해 추론 능력 향상
- 코드 실행기를 이용한 과제 검증 및 보상 기반 학습 프로세스
- 멀티태스크 자가 발견 방식으로 안정적인 학습 구현
- 기존 RLVR의 한계
- 고품질 질문-답변 데이터셋에 대한 수작업 의존도로 확장성 한계
- 인간의 중간 추론 단계 대신 결과 기반 피드백 활용
- AZR의 학습 메커니즘
- 강화 학습 알고리즘(REINFORCE++)과 과제 평가 시스템 연계
- AI가 스스로 추론 문제 생성 → 해결 → 피드백 반복하는 자기주도 학습
- 성능 테스트 결과
- AZR-Coder-7B: 기존 최고 모델 대비 1.8%포인트 성능 상승
- 14B 모델은 3B 모델 대비 13.2%포인트 외부 데이터 추론 능력 향상
- 전문가 데이터셋 접근 없이도 코딩 정확도 0.3%포인트 상승
결론
- AZR 모델은 외부 데이터 의존도 감소와 모델 규모 확장성이라는 두 가지 혁신을 통해 AI 학습 패러다임을 재정의
- 허깅페이스 및 깃허브 공개를 통해 연구자 및 개발자에게 즉시 활용 가능
- 자체 학습 기능을 갖춘 AZR은 데이터 부족 환경에서도 높은 성능 달성 가능