카카오의 멀티모달 언어모델 Kanana-o 개요
AI Store에서 AI코딩으로 만들어진 앱을 만나보세요!
지금 바로 방문하기

이미지와 음성을 아우르는 카카오의 멀티모달 언어모델 Kanana-o 알아보기

카테고리

프로그래밍/소프트웨어 개발

서브카테고리

인공지능

대상자

  • *소프트웨어 개발자, AI 연구자, 음성 인식/합성 기술자**
  • *난이도**: 중급 이상 (모델 아키텍처, 데이터 처리 기술, 모듈 설계 방식 설명)

핵심 요약

  • Kanana-o는 텍스트와 음성을 통합적으로 처리하는 멀티모달 언어모델으로, 오디오 인코딩, LLM 기반 응답 생성, 오디오 디코딩 3단계로 구성됨
  • Whisper + 1D-C-Abstractor를 통해 음성 데이터를 600개 이하의 피처 벡터로 압축하여 LLM 입력 최적화
  • Voice Token LMToken-to-Wav 모듈(Token-Voicebox + Univnet)을 통해 자연스러운 음성 합성 가능

섹션별 세부 요약

  1. 음성과 텍스트의 차이점
  • 음성은 비언어적 정보(말투, 리듬, 배경 소리 등)를 포함하여 텍스트 LLM이 인식하지 못하는 정보를 처리
  • 텍스트 LLM의 한계: 감정, 억양, 속도 등 paralinguistic cues 무시
  1. Kanana-o 모델 구조
  • 오디오 인코딩 모듈:
  • 음성 신호 → Mel 스펙트로그램Whisper 인코더1D-C-Abstractor로 압축
  • 1분 음성 데이터를 600개 이하의 피처 벡터로 변환
  • LLM 기반 응답 생성:
  • 텍스트와 음성 임베딩을 통합하여 의미를 이해하고 응답 시퀀스 생성
  • 오디오 디코딩 모듈:
  • Voice Token LM → 이산 음성 토큰 생성 → Token-Voicebox → 멜 스펙트로그램 생성 → Univnet → 실제 음성 파형 복원
  1. 음성 토크나이저 및 BPE 적용
  • 음성 토크나이저: 25개/초의 이산 토큰 생성 (6,000 코드북 항목)
  • BPE 적용: 시퀀스 길이 30% 감소 (vocab size 10,000 기준)
  • 한국어 맞춤형 토크나이저 개발 중 (공개 모델의 한계 극복)
  1. Voice Token LM의 장점
  • LLM과 분리된 경량 모델(1B 내외) 사용 → 추론 효율성 향상
  • LLM의 기존 언어 지식 유지, 음성 토큰 생성 시 감정/억양 정보 활용
  1. 학습 데이터셋 구성
  • ASR/TTS 데이터 기반
  • 영어 데이터: 공개 데이터 활용
  • 한국어 데이터: AI HUB 데이터 + 자체 수집 (성우 고용)
  • DNSMOS/SNR 기준으로 잡음 제거 및 데이터 필터링 수행

결론

  • Voice Token LM + Token-to-Wav 모듈 적용으로 자연스러운 음성 합성 가능
  • 1D-C-Abstractor + BPE를 통해 음성 입력 데이터 최적화
  • Token-VoiceboxUnivnet 모듈을 통한 고품질 음성 파형 생성
  • 한국어 맞춤형 음성 토크나이저 개발이 성능 향상 핵심
  • *실무 팁: 음성 인코딩 시 Whisper + 1D-C-Abstractor 조합, 음성 디코딩 시 Voice Token LM + Token-to-Wav** 모듈 사용 권장