Kanana LLM 1.5 개발기 요약

카테고리

프로그래밍/소프트웨어 개발

서브카테고리

인공지능

대상자

*소프트웨어 개발자, AI 연구자, LLM 모델 개발자**
난이도: 중급 이상 (LLM 학습 데이터 구축, 모델 아키텍처 설계, 성능 평가 기법 이해 필요)*

핵심 요약

Kanana 1.5는 Agentic AI 역량 강화를 위해 코딩/수학 능력 향상, Long Context 처리 확대, Post-training 방법 개선을 주목적으로 삼음
고품질 합성 데이터 생성을 통해 수학/코드 성능 향상 (NuminaMath, HumanEval 등 주요 벤치마크 성과 개선)
2단계 학습 전략 (Stage 1: 100B 토큰, Stage 2: 10B 토큰)과 Attention head 유지 + Hidden size 축소 모델 설계로 성능 최적화
Long Context 처리 능력 확장 (8K → 128K) 및 NIAH, RULER, HELMET 벤치마크 활용 평가

섹션별 세부 요약

1. 기존 LLM의 한계 및 개선 필요성

Kanana 1.0의 문제점: 수학/코딩 분야에서 논리적 오류, 비효율적 코드 생성, 복잡한 문제 해결 실패
데이터 품질 저하 원인: 일반 웹 코퍼스 기반 학습 → 전문성 부족, 고품질 데이터 부족
Agentic AI 요구 사항: 사용자 의도 파악, 다단계 추론, 외부 API 연동, 맥락 유지 능력

2. 수학/코드 코퍼스 생성 전략

수학 코퍼스:

- NuminaMath 데이터를 시드로 활용

- 다양한 모델 사용 (외부 고성능 모델 + 내부 수학 특화 모델)

- 풀이 과정 다양성 확보 (다양한 접근 방식/설명 스타일 생성)

- Decontamination 과정 적용 (주요 벤치마크와 중복 제거)

코드 코퍼스:

- 오픈소스 저장소/알고리즘 자료 활용

- 다양한 언어/난이도 포괄

- 솔루션 코드 생성 (다양한 코딩 패턴 학습 유도)

- HumanEval, MBPP 벤치마크와 Decontamination 수행

3. 두 단계 학습 전략

Stage 1 (100B 토큰):

- 데이터 구성: 영어 35%, 한국어 35%, 코드 15%, 수학 15%

- 목표: 일반 언어 성능 유지 + 전문 분야 데이터 점진 도입

Stage 2 (10B 토큰):

- 데이터 구성: 영어 30%, 한국어 30%, 코드 20%, 수학 20%

- 강화 대상: 고난이도 고품질 데이터 선별 (전문 분야 데이터 비중 증가)

성과: HumanEval (51.22 → 73.78), GSM8K (70.05 → 80.67), MBPP (63.4 → 66.4)

4. 모델 아키텍처 최적화

경량화 전략:

- Attention head 수 유지 (복잡한 추론 능력 보존)

- Hidden size/Intermediate size 축소 (파라미터 수/연산량 감소)

- 3B 파라미터 모델 설계 (기존 8B → 3B)

성과:

- HumanEval (32.93 → 53.66), GSM8K (50.72 → 64.52), MBPP (48.0 → 54.4)

- 일반 지식 벤치마크도 개선 (MMLU +3.96, KMMLU +2.09)

5. Long Context 처리 능력 확대

Context length 확장: 8K → 128K
평가 벤치마크:

- NIAH: Needle in a Haystack (정답 추출 능력 평가)

- RULER: Retrieval, Multi-hop Tracing, Aggregation, QA 등 13개 항목 종합 평가

- HELMET: RAG, Citation, Re-rank, Long QA 등 7개 항목 평가 (일관성 개선)

Base 모델 평가 문제점:

- 명시적 지시어 부족 → 프롬프트 설계 민감성

- QA Form vs Retrieval Form 프롬프트 설계 필요성

- HELMET의 Base 모델용 프롬프트 제공

결론

실무 적용 팁:

- 고품질 합성 데이터 생성 (NuminaMath, HumanEval 등 사용)

- 2단계 학습 전략 (Stage 1: 일반 언어 + 전문 분야 점진 도입, Stage 2: 고난이도 데이터 강화)

- Attention head 유지 + Hidden size 축소 모델 설계 (경량화 시 성능 저하 방지)

- Long Context 평가 시 Base 모델용 프롬프트 설계 (HELMET 활용)

핵심 성과: 수학/코딩 벤치마크에서 15~20% 성능 향상, 128K Context length 확장으로 복잡한 작업 처리 능력 강화