이미지와 음성을 아우르는 카카오의 멀티모달 언어모델 Kanana-o 알아보기
카테고리
프로그래밍/소프트웨어 개발
서브카테고리
인공지능
대상자
- *소프트웨어 개발자, AI 연구자, 음성 인식/합성 기술자**
- *난이도**: 중급 이상 (모델 아키텍처, 데이터 처리 기술, 모듈 설계 방식 설명)
핵심 요약
- Kanana-o는 텍스트와 음성을 통합적으로 처리하는 멀티모달 언어모델으로, 오디오 인코딩, LLM 기반 응답 생성, 오디오 디코딩 3단계로 구성됨
- Whisper + 1D-C-Abstractor를 통해 음성 데이터를 600개 이하의 피처 벡터로 압축하여 LLM 입력 최적화
- Voice Token LM과 Token-to-Wav 모듈(Token-Voicebox + Univnet)을 통해 자연스러운 음성 합성 가능
섹션별 세부 요약
- 음성과 텍스트의 차이점
- 음성은 비언어적 정보(말투, 리듬, 배경 소리 등)를 포함하여 텍스트 LLM이 인식하지 못하는 정보를 처리
- 텍스트 LLM의 한계: 감정, 억양, 속도 등 paralinguistic cues 무시
- Kanana-o 모델 구조
- 오디오 인코딩 모듈:
- 음성 신호 → Mel 스펙트로그램 → Whisper 인코더 → 1D-C-Abstractor로 압축
- 1분 음성 데이터를 600개 이하의 피처 벡터로 변환
- LLM 기반 응답 생성:
- 텍스트와 음성 임베딩을 통합하여 의미를 이해하고 응답 시퀀스 생성
- 오디오 디코딩 모듈:
- Voice Token LM → 이산 음성 토큰 생성 → Token-Voicebox → 멜 스펙트로그램 생성 → Univnet → 실제 음성 파형 복원
- 음성 토크나이저 및 BPE 적용
- 음성 토크나이저: 25개/초의 이산 토큰 생성 (6,000 코드북 항목)
- BPE 적용: 시퀀스 길이 30% 감소 (vocab size 10,000 기준)
- 한국어 맞춤형 토크나이저 개발 중 (공개 모델의 한계 극복)
- Voice Token LM의 장점
- LLM과 분리된 경량 모델(1B 내외) 사용 → 추론 효율성 향상
- LLM의 기존 언어 지식 유지, 음성 토큰 생성 시 감정/억양 정보 활용
- 학습 데이터셋 구성
- ASR/TTS 데이터 기반
- 영어 데이터: 공개 데이터 활용
- 한국어 데이터: AI HUB 데이터 + 자체 수집 (성우 고용)
- DNSMOS/SNR 기준으로 잡음 제거 및 데이터 필터링 수행
결론
- Voice Token LM + Token-to-Wav 모듈 적용으로 자연스러운 음성 합성 가능
- 1D-C-Abstractor + BPE를 통해 음성 입력 데이터 최적화
- Token-Voicebox와 Univnet 모듈을 통한 고품질 음성 파형 생성
- 한국어 맞춤형 음성 토크나이저 개발이 성능 향상 핵심
- *실무 팁: 음성 인코딩 시 Whisper + 1D-C-Abstractor 조합, 음성 디코딩 시 Voice Token LM + Token-to-Wav** 모듈 사용 권장