알리바바, 긴 컨텍스트 추론 향상 학습 프레임워크 ‘큐원롱-L1’ 공개
카테고리
프로그래밍/소프트웨어 개발
서브카테고리
인공지능, 머신러닝
대상자
AI/머신러닝 개발자, 연구자, 데이터 과학자
핵심 요약
- 큐원롱-L1(QwenLong-L1)은 긴 컨텍스트 추론에 특화된 강화 학습 프레임워크로, 12만 토큰 이상의 긴 컨텍스트를 처리할 수 있도록 설계되었다.
- 3단계 학습 체계(워밍업 지도 미세조정, 커리큘럼 기반 단계적 RL, 난이도 기반 회고 샘플링)를 통해 복잡한 추론 능력을 향상시켰다.
- 자체적인 검증(self-verification) 및 백트래킹(backtracking) 능력을 갖추어, 정확성과 신뢰도가 높은 결과를 도출할 수 있다.
섹션별 세부 요약
1. 긴 컨텍스트 추론의 필요성
- 기존 추론 모델은 4000토큰 이하의 짧은 컨텍스트에서만 성능 향상이 가능했다.
- 12만 토큰 이상의 긴 컨텍스트를 처리하는 능력은 여전히 부족하며, 방대한 정보를 다루는 분야에서 한계가 있었다.
2. 큐원롱-L1의 학습 체계
- 워밍업 지도 미세조정(SFT): 학습 데이터셋을 통해 장기 컨텍스트 추론 능력과 그라운딩(grounding) 능력을 향상시킴.
- 커리큘럼 기반 단계적 RL: 짧은 컨텍스트에서의 전략을 긴 컨텍스트로 확장시켜, 학습의 불안정성과 비효율성 최소화.
- 난이도 기반 회고 샘플링: 모델이 어려움을 겪었던 사례를 재학습하여, 문제 해결 능력 강화.
3. 평가 및 성능
- 큐원롱-L1-32B 모델은 앤트로픽의 클로드 3.7 소네트 싱킹, 오픈AI의 o3-미니, 큐원3-235B-A22B 등보다 성능 우수.
- 큐원롱-L1-14B는 구글 제미나이 2.0 플래시 싱킹과 큐원3-32B를 앞서며, 작은 모델에서도 우수한 성능 달성.
4. 고급 추론 능력
- 그라운딩(grounding): 문서 내 내용을 명확히 연결하여 근거를 기반으로 답변 생성.
- 서브골(subgoal) 설정: 복잡한 질문을 단계별로 해결.
- 백트래킹(backtracking): 오류 인식 및 경로 수정 가능.
- 자기 검증(self-verification): 생성된 응답의 정확성 검토 및 수정 가능.
결론
- 큐원롱-L1은 긴 컨텍스트 기반 문제 해결에 효과적인 강화 학습 프레임워크로, 자체 검증, 백트래킹, 서브골 설정 등의 고급 추론 능력을 갖추고 있어, 정확성과 신뢰도가 높은 결과를 도출할 수 있다.