개발 인공지능

S

surfit

2025. 05. 09

카카오의 멀티모달 언어모델 Kanana-o 개요

이미지와 음성을 아우르는 카카오의 멀티모달 언어모델 Kanana-o 알아보기

카테고리

프로그래밍/소프트웨어 개발

서브카테고리

인공지능

대상자

*소프트웨어 개발자, AI 연구자, 음성 인식/합성 기술자**
*난이도**: 중급 이상 (모델 아키텍처, 데이터 처리 기술, 모듈 설계 방식 설명)

핵심 요약

Kanana-o는 텍스트와 음성을 통합적으로 처리하는 멀티모달 언어모델으로, 오디오 인코딩, LLM 기반 응답 생성, 오디오 디코딩 3단계로 구성됨
Whisper + 1D-C-Abstractor를 통해 음성 데이터를 600개 이하의 피처 벡터로 압축하여 LLM 입력 최적화
Voice Token LM과 Token-to-Wav 모듈(Token-Voicebox + Univnet)을 통해 자연스러운 음성 합성 가능

섹션별 세부 요약

음성과 텍스트의 차이점

음성은 비언어적 정보(말투, 리듬, 배경 소리 등)를 포함하여 텍스트 LLM이 인식하지 못하는 정보를 처리
텍스트 LLM의 한계: 감정, 억양, 속도 등 paralinguistic cues 무시

Kanana-o 모델 구조

오디오 인코딩 모듈:
음성 신호 → Mel 스펙트로그램 → Whisper 인코더 → 1D-C-Abstractor로 압축
1분 음성 데이터를 600개 이하의 피처 벡터로 변환
LLM 기반 응답 생성:
텍스트와 음성 임베딩을 통합하여 의미를 이해하고 응답 시퀀스 생성
오디오 디코딩 모듈:
Voice Token LM → 이산 음성 토큰 생성 → Token-Voicebox → 멜 스펙트로그램 생성 → Univnet → 실제 음성 파형 복원

음성 토크나이저 및 BPE 적용

음성 토크나이저: 25개/초의 이산 토큰 생성 (6,000 코드북 항목)
BPE 적용: 시퀀스 길이 30% 감소 (vocab size 10,000 기준)
한국어 맞춤형 토크나이저 개발 중 (공개 모델의 한계 극복)

Voice Token LM의 장점

LLM과 분리된 경량 모델(1B 내외) 사용 → 추론 효율성 향상
LLM의 기존 언어 지식 유지, 음성 토큰 생성 시 감정/억양 정보 활용

학습 데이터셋 구성

ASR/TTS 데이터 기반
영어 데이터: 공개 데이터 활용
한국어 데이터: AI HUB 데이터 + 자체 수집 (성우 고용)
DNSMOS/SNR 기준으로 잡음 제거 및 데이터 필터링 수행

결론

Voice Token LM + Token-to-Wav 모듈 적용으로 자연스러운 음성 합성 가능
1D-C-Abstractor + BPE를 통해 음성 입력 데이터 최적화
Token-Voicebox와 Univnet 모듈을 통한 고품질 음성 파형 생성
한국어 맞춤형 음성 토크나이저 개발이 성능 향상 핵심
*실무 팁: 음성 인코딩 시 Whisper + 1D-C-Abstractor 조합, 음성 디코딩 시 Voice Token LM + Token-to-Wav** 모듈 사용 권장

멀티모달 언어모델 Kanana-o 음성 합성 오디오 인코딩 모델 병합 LLM Token-to-Wav

목록으로 원문 보기