개발 인공지능, 머신러닝

D

dev_to

2025. 06. 13

새로운 TTS 기술: Fish-Speech (OpenAudio)

카테고리

프로그래밍/소프트웨어 개발

서브카테고리

인공지능, 머신러닝

대상자

소프트웨어 개발자, AI 연구자 및 TTS 기술 적용 업무 담당자
중간 수준 이상의 기술 이해도가 필요 (모델 성능 지표, 프레임워크 호환성 등 기술적 세부 사항 포함)

핵심 요약

OpenAudio-S1 모델은 WER 0.008, CER 0.004의 높은 정확도로 TTS-Arena2 벤치마크 최상위권 달성
다국어(영어, 일본어, 중국어 등 8개 언어) 및 감정 톤 조절(기쁨, 분노, 성실, 비꼬는 등 22가지 감정) 지원
Zero-shot/Few-shot TTS 기능으로 사전 학습 없이도 고품질 음성 생성 가능

섹션별 세부 요약

1. 프로젝트 개요

Fish-Speech → OpenAudio로 리브랜딩
자연스러운 음성 생성, 다국어 지원, 감정 톤 조절을 핵심 기능으로 제시
TTS-Arena2 벤치마크에서 최상위 성능 기록

2. 모델 버전 및 성능

OpenAudio-S1 (기본 모델)과 S1-mini (경량 버전) 제공
S1: WER 0.008, CER 0.004 / S1-mini: WER 0.011, CER 0.005
PyTorch 컴파일로 NVIDIA RTX 4090 GPU 기준 7배 속도 개선

3. 다국어 및 감정 톤 기능

8개 언어(영어, 일본어, 중국어, 프랑스어 등) 지원
기본 감정(22가지) 및 고급 톤(비꼬기, 긴급성 등) 조절 가능
자음/모음 기반이 아닌 문자 수준(Character-level) 처리로 언어별 사전 지식 필요 없음

4. 기술적 구현 및 확장성

Gradio (웹 인터페이스) 및 PyQt6 (GUI)와의 호환성 제공
Zero-shot TTS 기능으로 예시 없이도 음성 생성 가능
GitHub에서 설치 가이드 및 보이스 클로닝 최적화 방법 제공

결론

OpenAudio-S1은 높은 정확도와 다국어/감정 톤 기능으로 TTS 기술의 새로운 기준을 제시
Zero-shot 기능과 웹/GUI 인터페이스 지원으로 개발자 편의성 극대화
GitHub에서 모델 사용법 및 최적화 가이드 참조: https://github.com/fishaudio/fish-speech

Fish Speech OpenAudio-S1 Text-to-Speech AI Multilingual Support Zero-shot Learning Emotional Tone

목록으로 원문 보기