Audio LLM Kanana-a: 음성과 텍스트를 융합하여 자연스러운 인간-기계 소통 실현

📅 2025.05.09 👤 null 🏷️ 개발

완성도:

0.9

🤖 AI 추천

음성 인터페이스, AI 기반 대화 시스템, 멀티모달 AI 기술에 관심 있는 모든 개발자 및 연구자, 특히 자연어 처리 및 음성 기술 분야 종사자에게 유익합니다. Audio LLM의 기술적 구현 방식과 데이터셋 구성에 대한 깊이 있는 이해를 얻고자 하는 미들 레벨 이상의 개발자에게 추천합니다.

🔖 주요 키워드

Audio LLM 멀티모달 AI 음성 인식 음성 합성 자연어 처리 Whisper Voice Token LM 음성 토크나이저 BPE Token-to-Wav

핵심 기술

Audio LLM은 음성의 비언어적 정보까지 이해하고 생성하여 인간과 기계 간의 소통 방식을 혁신합니다. 본 콘텐츠는 Kanana-a 모델의 구조, 특히 오디오 인코딩 및 디코딩 모듈의 기술적 고민과 해결 과정을 심층적으로 다룹니다.

기술적 세부사항

음성의 장점: 텍스트 대비 빠른 입력 속도, 낮은 시각적 주의 요구, 몰입감 있는 소통, 비언어적 정보(말투, 억양 등) 포함.
Kanana-a 모델 구조:
- 오디오 인코딩 모듈:
  - 음성 신호를 Mel Spectrogram으로 변환.
  - OpenAI Whisper 모델을 활용하여 고압축 피처 벡터로 변환 (1초당 16,000 샘플 → 50개 피처 벡터).
  - 긴 음성 시퀀스 처리를 위해 1D-C-Abstractor를 적용하여 피처 벡터 압축 (1분 길이 약 3,000 → 600 이하).
- LLM 기반 응답 생성: 텍스트 및 음성 임베딩을 통합적으로 이해하여 응답 시퀀스 생성.
- 오디오 디코딩 모듈:
  - LLM 응답 기반으로 이산적인 음성 토큰 시퀀스 생성 (Voice Token LM 활용).
  - 음성 토크나이저: 연속 오디오 신호를 짧은 단위 코드(code)로 분해하며, 비언어적 정보 보존 중요. 한국어 특화 토크나이저 개발 진행 중.
  - BPE (Byte Pair Encoding): 음성 토큰 시퀀스의 반복 구조를 압축하여 시퀀스 길이 감소 (약 30% 감소).
  - Voice Token LM: LLM과 분리된 경량 모델로, 텍스트 응답과 음향적 힌트를 활용하여 효율적 음성 응답 생성.
  - Token-to-Wav 모듈:
    - Token-Voicebox (Voicebox 기반): 음성 토큰 → Mel Spectrogram 생성.
    - Univnet (카카오엔터프라이즈 개발): Mel Spectrogram → 음성 파형 복원.
학습 데이터셋 구성: ASR, TTS 데이터를 기반으로 한국어 데이터 부족 문제 해결을 위해 자체 수집 및 가공 (성우 고용, 잡음 필터링 등).