KT, 한국어 특화 대규모 언어 모델 '믿:음 2.0' 공개: 성능, 데이터, 라이선스 심층 분석

🤖 AI 추천

KT의 '믿:음 2.0' 모델에 대한 상세한 기술적 설명과 한국어 특화 전략을 이해하고 싶은 연구자, 개발자, AI 모델 개발에 관심 있는 모든 IT 전문가에게 추천합니다.

🔖 주요 키워드

KT, 한국어 특화 대규모 언어 모델 '믿:음 2.0' 공개: 성능, 데이터, 라이선스 심층 분석

핵심 기술

KT에서 공개한 한국어 특화 대규모 언어 모델 '믿:음 2.0'은 한국 사회의 언어/문화적 특성을 반영하고 상업적 활용이 가능한 오픈소스 모델입니다. 한국어 특화된 고유 토크나이저와 다층적 최적화 전략을 통해 고품질 한국어 데이터를 활용합니다.

기술적 세부사항

  • 모델 라인업:
    • Mi:dm 2.0 Mini (2.3B): 임베디드 환경 및 특수 목적에 최적화된 경량화 모델.
    • Mi:dm 2.0 Base (11.5B): Depth-up Scaling 기법으로 8B 모델을 심층화하여 성능 강화한 대규모 범용 모델.
    • Mi:dm 2.0 Pro (41B): 공개 예정인 프론티어급 모델.
  • 입력 토큰 지원: Base 및 Mini 모델 모두 최대 32K 토큰 입력 지원.
  • 한국어 특화 전략:
    • 고품질 한국어 데이터 선별 및 합성 데이터 생성.
    • 커리큘럼 러닝 및 도메인 밸런싱을 통한 훈련 데이터 불균형 해소.
    • 압축 효율 및 언어 구조 반영 강화를 위한 한국어 최적화 토크나이저.
  • 데이터 품질 관리:
    • 8단계 대용량 웹문서 필터링 (중복 제거, 휴리스틱, perplexity, 문자 손상/수정, 모델 기반 품질 필터, 유해성 필터, 라인 중복, PII 비식별화 등).
    • 각 소스별 별도 정제 및 규칙 적용 (뉴스, 법률문서, 학술논문 등).
    • 언어, 도메인, 데이터 소스, 표현/스타일 등 다차원 데이터 분류 체계 (6개 주요 도메인, 20개 하위 도메인).
    • 자연적 데이터 85.7% 이상, 합성 데이터 14% 활용.
  • 합성 데이터 생성: STEM, 경제 등 저커버리지 분야 데이터 강화, 영어 웹문서 구조적 다양성 한국어 변환·확장, Chain-of-Thought 데이터 활용.
  • 모델 아키텍처: Transformer 디코더-only 구조.
    • Base 모델: 8B → Depth-up Scaling(32→48층) → 11.5B 확장, 2단계 연속 학습.
    • Mini 모델: Base 지식을 width pruning 및 다단계 distillation으로 경량화.
  • 최신 기술 반영: Long-context 학습 (32,768 토큰), GQA, SiLU, RoPE 등.
  • 라이선스: 연구/상업적 사용 모두 자유로운 MIT 라이선스로 공개.

개발 임팩트

'믿:음 2.0' 모델은 한국어 특화된 고성능 오픈소스 LLM으로서, 다양한 한국어 기반 AI 서비스 및 연구 개발에 크게 기여할 수 있습니다. MIT 라이선스는 상업적 활용의 폭을 넓혀주며, 한국어 데이터의 품질 관리 및 강화 전략은 모델 성능 향상의 중요한 기반이 됩니다.

커뮤니티 반응

(주어진 정보에는 커뮤니티 반응에 대한 직접적인 언급이 없습니다.)

📚 관련 자료