새로운 TTS 기술: Fish-Speech (OpenAudio)
카테고리
프로그래밍/소프트웨어 개발
서브카테고리
인공지능, 머신러닝
대상자
- 소프트웨어 개발자, AI 연구자 및 TTS 기술 적용 업무 담당자
- 중간 수준 이상의 기술 이해도가 필요 (모델 성능 지표, 프레임워크 호환성 등 기술적 세부 사항 포함)
핵심 요약
- OpenAudio-S1 모델은 WER 0.008, CER 0.004의 높은 정확도로 TTS-Arena2 벤치마크 최상위권 달성
- 다국어(영어, 일본어, 중국어 등 8개 언어) 및 감정 톤 조절(기쁨, 분노, 성실, 비꼬는 등 22가지 감정) 지원
- Zero-shot/Few-shot TTS 기능으로 사전 학습 없이도 고품질 음성 생성 가능
섹션별 세부 요약
1. 프로젝트 개요
- Fish-Speech → OpenAudio로 리브랜딩
- 자연스러운 음성 생성, 다국어 지원, 감정 톤 조절을 핵심 기능으로 제시
- TTS-Arena2 벤치마크에서 최상위 성능 기록
2. 모델 버전 및 성능
- OpenAudio-S1 (기본 모델)과 S1-mini (경량 버전) 제공
- S1: WER 0.008, CER 0.004 / S1-mini: WER 0.011, CER 0.005
- PyTorch 컴파일로 NVIDIA RTX 4090 GPU 기준 7배 속도 개선
3. 다국어 및 감정 톤 기능
- 8개 언어(영어, 일본어, 중국어, 프랑스어 등) 지원
- 기본 감정(22가지) 및 고급 톤(비꼬기, 긴급성 등) 조절 가능
- 자음/모음 기반이 아닌 문자 수준(Character-level) 처리로 언어별 사전 지식 필요 없음
4. 기술적 구현 및 확장성
- Gradio (웹 인터페이스) 및 PyQt6 (GUI)와의 호환성 제공
- Zero-shot TTS 기능으로 예시 없이도 음성 생성 가능
- GitHub에서 설치 가이드 및 보이스 클로닝 최적화 방법 제공
결론
- OpenAudio-S1은 높은 정확도와 다국어/감정 톤 기능으로 TTS 기술의 새로운 기준을 제시
- Zero-shot 기능과 웹/GUI 인터페이스 지원으로 개발자 편의성 극대화
- GitHub에서 모델 사용법 및 최적화 가이드 참조: https://github.com/fishaudio/fish-speech