Kanana LLM 1.5 개발기 요약
카테고리
프로그래밍/소프트웨어 개발
서브카테고리
인공지능
대상자
- *소프트웨어 개발자, AI 연구자, LLM 모델 개발자**
- 난이도: 중급 이상 (LLM 학습 데이터 구축, 모델 아키텍처 설계, 성능 평가 기법 이해 필요)*
핵심 요약
- Kanana 1.5는 Agentic AI 역량 강화를 위해 코딩/수학 능력 향상, Long Context 처리 확대, Post-training 방법 개선을 주목적으로 삼음
- 고품질 합성 데이터 생성을 통해 수학/코드 성능 향상 (NuminaMath, HumanEval 등 주요 벤치마크 성과 개선)
- 2단계 학습 전략 (Stage 1: 100B 토큰, Stage 2: 10B 토큰)과 Attention head 유지 + Hidden size 축소 모델 설계로 성능 최적화
- Long Context 처리 능력 확장 (8K → 128K) 및 NIAH, RULER, HELMET 벤치마크 활용 평가
섹션별 세부 요약
1. 기존 LLM의 한계 및 개선 필요성
- Kanana 1.0의 문제점: 수학/코딩 분야에서 논리적 오류, 비효율적 코드 생성, 복잡한 문제 해결 실패
- 데이터 품질 저하 원인: 일반 웹 코퍼스 기반 학습 → 전문성 부족, 고품질 데이터 부족
- Agentic AI 요구 사항: 사용자 의도 파악, 다단계 추론, 외부 API 연동, 맥락 유지 능력
2. 수학/코드 코퍼스 생성 전략
- 수학 코퍼스:
- NuminaMath 데이터를 시드로 활용
- 다양한 모델 사용 (외부 고성능 모델 + 내부 수학 특화 모델)
- 풀이 과정 다양성 확보 (다양한 접근 방식/설명 스타일 생성)
- Decontamination 과정 적용 (주요 벤치마크와 중복 제거)
- 코드 코퍼스:
- 오픈소스 저장소/알고리즘 자료 활용
- 다양한 언어/난이도 포괄
- 솔루션 코드 생성 (다양한 코딩 패턴 학습 유도)
- HumanEval, MBPP 벤치마크와 Decontamination 수행
3. 두 단계 학습 전략
- Stage 1 (100B 토큰):
- 데이터 구성: 영어 35%, 한국어 35%, 코드 15%, 수학 15%
- 목표: 일반 언어 성능 유지 + 전문 분야 데이터 점진 도입
- Stage 2 (10B 토큰):
- 데이터 구성: 영어 30%, 한국어 30%, 코드 20%, 수학 20%
- 강화 대상: 고난이도 고품질 데이터 선별 (전문 분야 데이터 비중 증가)
- 성과: HumanEval (51.22 → 73.78), GSM8K (70.05 → 80.67), MBPP (63.4 → 66.4)
4. 모델 아키텍처 최적화
- 경량화 전략:
- Attention head 수 유지 (복잡한 추론 능력 보존)
- Hidden size/Intermediate size 축소 (파라미터 수/연산량 감소)
- 3B 파라미터 모델 설계 (기존 8B → 3B)
- 성과:
- HumanEval (32.93 → 53.66), GSM8K (50.72 → 64.52), MBPP (48.0 → 54.4)
- 일반 지식 벤치마크도 개선 (MMLU +3.96, KMMLU +2.09)
5. Long Context 처리 능력 확대
- Context length 확장: 8K → 128K
- 평가 벤치마크:
- NIAH: Needle in a Haystack (정답 추출 능력 평가)
- RULER: Retrieval, Multi-hop Tracing, Aggregation, QA 등 13개 항목 종합 평가
- HELMET: RAG, Citation, Re-rank, Long QA 등 7개 항목 평가 (일관성 개선)
- Base 모델 평가 문제점:
- 명시적 지시어 부족 → 프롬프트 설계 민감성
- QA Form vs Retrieval Form 프롬프트 설계 필요성
- HELMET의 Base 모델용 프롬프트 제공
결론
- 실무 적용 팁:
- 고품질 합성 데이터 생성 (NuminaMath, HumanEval 등 사용)
- 2단계 학습 전략 (Stage 1: 일반 언어 + 전문 분야 점진 도입, Stage 2: 고난이도 데이터 강화)
- Attention head 유지 + Hidden size 축소 모델 설계 (경량화 시 성능 저하 방지)
- Long Context 평가 시 Base 모델용 프롬프트 설계 (HELMET 활용)
- 핵심 성과: 수학/코딩 벤치마크에서 15~20% 성능 향상, 128K Context length 확장으로 복잡한 작업 처리 능력 강화