개발 인공지능, 머신러닝

A

aitimes

2025. 06. 03

알리바바, QwenLong-L1로 긴 컨텍스트 추론 강화 학습 프레임워크 공개

알리바바, 긴 컨텍스트 추론 향상 학습 프레임워크 ‘큐원롱-L1’ 공개

카테고리

프로그래밍/소프트웨어 개발

서브카테고리

인공지능, 머신러닝

대상자

AI/머신러닝 개발자, 연구자, 데이터 과학자

핵심 요약

큐원롱-L1(QwenLong-L1)은 긴 컨텍스트 추론에 특화된 강화 학습 프레임워크로, 12만 토큰 이상의 긴 컨텍스트를 처리할 수 있도록 설계되었다.
3단계 학습 체계(워밍업 지도 미세조정, 커리큘럼 기반 단계적 RL, 난이도 기반 회고 샘플링)를 통해 복잡한 추론 능력을 향상시켰다.
자체적인 검증(self-verification) 및 백트래킹(backtracking) 능력을 갖추어, 정확성과 신뢰도가 높은 결과를 도출할 수 있다.

섹션별 세부 요약

1. 긴 컨텍스트 추론의 필요성

기존 추론 모델은 4000토큰 이하의 짧은 컨텍스트에서만 성능 향상이 가능했다.
12만 토큰 이상의 긴 컨텍스트를 처리하는 능력은 여전히 부족하며, 방대한 정보를 다루는 분야에서 한계가 있었다.

2. 큐원롱-L1의 학습 체계

워밍업 지도 미세조정(SFT): 학습 데이터셋을 통해 장기 컨텍스트 추론 능력과 그라운딩(grounding) 능력을 향상시킴.
커리큘럼 기반 단계적 RL: 짧은 컨텍스트에서의 전략을 긴 컨텍스트로 확장시켜, 학습의 불안정성과 비효율성 최소화.
난이도 기반 회고 샘플링: 모델이 어려움을 겪었던 사례를 재학습하여, 문제 해결 능력 강화.

3. 평가 및 성능

큐원롱-L1-32B 모델은 앤트로픽의 클로드 3.7 소네트 싱킹, 오픈AI의 o3-미니, 큐원3-235B-A22B 등보다 성능 우수.
큐원롱-L1-14B는 구글 제미나이 2.0 플래시 싱킹과 큐원3-32B를 앞서며, 작은 모델에서도 우수한 성능 달성.

4. 고급 추론 능력

그라운딩(grounding): 문서 내 내용을 명확히 연결하여 근거를 기반으로 답변 생성.
서브골(subgoal) 설정: 복잡한 질문을 단계별로 해결.
백트래킹(backtracking): 오류 인식 및 경로 수정 가능.
자기 검증(self-verification): 생성된 응답의 정확성 검토 및 수정 가능.

결론

큐원롱-L1은 긴 컨텍스트 기반 문제 해결에 효과적인 강화 학습 프레임워크로, 자체 검증, 백트래킹, 서브골 설정 등의 고급 추론 능력을 갖추고 있어, 정확성과 신뢰도가 높은 결과를 도출할 수 있다.

알리바바 큐원롱-L1 긴 컨텍스트 추론 강화학습 학습 프레임워크 인공지능 LLM

목록으로 원문 보기