새로운 TTS 기술: Fish-Speech (OpenAudio)

카테고리

프로그래밍/소프트웨어 개발

서브카테고리

인공지능, 머신러닝

대상자

  • 소프트웨어 개발자, AI 연구자 및 TTS 기술 적용 업무 담당자
  • 중간 수준 이상의 기술 이해도가 필요 (모델 성능 지표, 프레임워크 호환성 등 기술적 세부 사항 포함)

핵심 요약

  • OpenAudio-S1 모델은 WER 0.008, CER 0.004의 높은 정확도로 TTS-Arena2 벤치마크 최상위권 달성
  • 다국어(영어, 일본어, 중국어 등 8개 언어)감정 톤 조절(기쁨, 분노, 성실, 비꼬는 등 22가지 감정) 지원
  • Zero-shot/Few-shot TTS 기능으로 사전 학습 없이도 고품질 음성 생성 가능

섹션별 세부 요약

1. 프로젝트 개요

  • Fish-Speech → OpenAudio로 리브랜딩
  • 자연스러운 음성 생성, 다국어 지원, 감정 톤 조절을 핵심 기능으로 제시
  • TTS-Arena2 벤치마크에서 최상위 성능 기록

2. 모델 버전 및 성능

  • OpenAudio-S1 (기본 모델)과 S1-mini (경량 버전) 제공
  • S1: WER 0.008, CER 0.004 / S1-mini: WER 0.011, CER 0.005
  • PyTorch 컴파일NVIDIA RTX 4090 GPU 기준 7배 속도 개선

3. 다국어 및 감정 톤 기능

  • 8개 언어(영어, 일본어, 중국어, 프랑스어 등) 지원
  • 기본 감정(22가지) 및 고급 톤(비꼬기, 긴급성 등) 조절 가능
  • 자음/모음 기반이 아닌 문자 수준(Character-level) 처리로 언어별 사전 지식 필요 없음

4. 기술적 구현 및 확장성

  • Gradio (웹 인터페이스) 및 PyQt6 (GUI)와의 호환성 제공
  • Zero-shot TTS 기능으로 예시 없이도 음성 생성 가능
  • GitHub에서 설치 가이드 및 보이스 클로닝 최적화 방법 제공

결론

  • OpenAudio-S1은 높은 정확도와 다국어/감정 톤 기능으로 TTS 기술의 새로운 기준을 제시
  • Zero-shot 기능웹/GUI 인터페이스 지원으로 개발자 편의성 극대화
  • GitHub에서 모델 사용법 및 최적화 가이드 참조: https://github.com/fishaudio/fish-speech