Chatterbox TTS

카테고리

프로그래밍/소프트웨어 개발

음성 합성, AI 모델, 데이터 처리

AI 개발자, 음성 인식/합성 분야 연구자, 콘텐츠 제작자

Chatterbox는 Resemble AI에서 개발한 최신 오픈소스 TTS(텍스트-음성 변환) 모델로, 5억 개 파라미터의 Llama 백본과 50만 시간의 정제된 데이터로 훈련됨
Perth 워터마킹 기능으로 생성 음성에 무단 사용 방지 및 위변조 방지 기능 제공
감정 과장 제어 기능으로 화자별 개성/감정 강도 조절 가능하며, 제로샷 TTS 기술을 적용해 별도 데이터 없이 다양한 음성 표현 가능

- MIT 라이선스 적용, 오픈소스 TTS 최초로 감정 과장 제어 기능 제공

- 5억 파라미터의 Llama 백본 사용, 50만 시간의 정제 데이터로 훈련

- 웹, 게임, AI 에이전트 등 다양한 콘텐츠 제작에 활용 가능

- Hugging Face Gradio 앱 및 자체 API로 시연 가능

- 상용 API(200ms 이하 초저지연) 제공

- 음소와 오디오 정렬 정보를 반영해 초고안정 생성 품질 구현

- 생성 음성에 신경망 워터마크 삽입

- MP3 압축, 오디오 편집 등에도 유지, 100%에 가까운 탐지 정확도

- Exaggeration 값 조절로 감정 강도 및 발화 속도 조절 가능

- 극적인 음성 합성 시 Exaggeration 0.7 이상, cfg_weight 감소 적용

- 현재는 영어에 한정, 다른 언어 지원은 미공개

- 최소 6~7GB VRAM 필요, 구형 GPU(Nvidia 2060)에서도 작동 가능

- 설치 과정에서 Python 3.13 미지원, numpy 1.26.4 미인식 등 문제 발생

- ElevenLabs 대비 우수한 품질 평가

- Zeroshot TTS 및 VC 모델(예: MegaTTS3)보다 제로샷 성능은 떨어짐

- LLM이 트랜스크립션 오류를 잘 처리하지 못해, 음성 인식 한계가 여전히 존재

Chatterbox TTS는 오픈소스 TTS 모델로, 감정 과장 제어, Perth 워터마킹, 제로샷 TTS 기술을 통해 다양한 음성 표현과 보안 기능을 제공하며, 상용 API 및 배포 예시를 포함한 실무 적용 가능
하드웨어 사양과 설치 과정의 어려움, 영어 지원 한계 등은 개선 필요
음성 인식(트랜스크립션) 한계는 AI 기술 발전으로 해결 가능하며, 책 낭독, 오디오북 제작 등 실무 활용 가능성 높음