OpenAudio가 혁신적인 새로운 시리즈의 고급 텍스트-투-스피치(TTS) 모델을 출시했습니다. Fish-Speech의 기반을 바탕으로 품질, 성능, 기능성에서 큰 발전을 이루어낸 첫 번째 모델, OpenAudio-S1을 소개합니다.

🏆 최첨단 성능

OpenAudio S1은 TTS 산업의 새로운 기준을 제시하는 놀라운 성과를 거두었습니다:

  • 비교 불가능한 정확도: Seed TTS Eval에서 0.008 WER과 0.004 CER이라는 압도적인 수치 달성
  • TTS-Arena 챔피언: TTS-Arena2 벤치마크에서 1위를 차지
  • 뛰어난 화자 유사도: 0.332의 화자 거리 점수로 자연스러운 음성 구현

🎭 고급 음성 제어

OpenAudio S1의 가장 큰 특징은 정교한 감정과 톤 제어 시스템입니다. 다양한 상황과 감정을 표현할 수 있는 광범위한 마커를 지원합니다:

기본 감정

  • (화난), (슬픈), (흥분한), (놀란), (만족한), (기쁜)
  • (겁에 질린), (걱정스러운), (화가 난), (긴장한), (좌절한), (우울한)
  • (공감하는), (당황한), (역겨운), (감동한), (자랑스러운), (편안한)

고급 감정

  • (경멸하는), (불행한), (불안한), (히스테리한), (무관심한)
  • (참을성 없는), (죄책감 있는), (비웃는), (공황 상태의), (분노한), (꺼리는)
  • (열정적인), (비난하는), (부정적인), (부인하는), (놀란), (진지한)

특수 효과

  • (웃는), (낄낄거리는), (흐느끼는), (큰소리로 우는), (한숨 쉬는), (헐떡이는)
  • (군중 웃음), (배경 웃음), (청중 웃음)

🌍 다국어 지원

OpenAudio S1은 다양한 언어를 네이티브로 지원하여 글로벌 사용자들의 요구를 충족합니다:

  • 영어, 중국어, 일본어, 독일어, 프랑스어, 스페인어
  • 한국어, 아랍어, 러시아어, 네덜란드어, 이탈리아어, 폴란드어, 포르투갈어

💻 모델 변형

사용자의 다양한 요구사항에 맞춰 두 가지 버전을 제공합니다:

모델 크기 특징 구매처
S1 4B 파라미터 모든 기능을 갖춘 플래그십 모델 fish.audio
S1-mini 0.5B 파라미터 핵심 기능을 갖춘 경량화 버전 Hugging Face

🚀 주요 특징

  1. 제로샷 & 퓨샷 TTS: 단 10-30초의 음성 샘플만으로 고품질 TTS 출력을 생성할 수 있습니다
  2. 음소 의존성 없음: 음소에 의존하지 않는 강력한 일반화 능력으로 더 자연스러운 음성 구현
  3. 빠른 추론: RTX 4060에서 약 1:5, RTX 4090에서 약 1:15의 실시간 비율로 효율적인 처리
  4. 다양한 인터페이스 옵션: WebUI, GUI, HTTP API 등 다양한 방식으로 접근 가능
  5. 경제적인 가격: 100만 바이트당 $15(시간당 약 $0.8)의 합리적인 가격 정책

🛠️ 시작하기

시스템 요구사항

  • 권장: 12GB VRAM (원활한 추론을 위해)
  • 지원 플랫폼: Linux, Windows (macOS 출시 예정)

빠른 시작 가이드

  1. 가중치 다운로드:
huggingface-cli download fishaudio/openaudio-s1-mini --local-dir checkpoints/openaudio-s1-mini
  1. 명령줄 추론:
# 참조 오디오에서 VQ 토큰 얻기
python fish_speech/models/dac/inference.py -i "ref_audio_name.wav" --checkpoint-path "checkpoints/openaudio-s1-mini/codec.pth"

# 의미 토큰 생성
python fish_speech/models/text2semantic/inference.py --text "변환할 텍스트" --prompt-text "참조 텍스트" --prompt-tokens "fake.npy" --compile

# 음성 생성
python fish_speech/models/dac/inference.py -i "codes_0.npy"
  1. WebUI 설정:
python -m tools.run_webui --llama-checkpoint-path "checkpoints/openaudio-s1-mini" --decoder-checkpoint-path "checkpoints/openaudio-s1-mini/codec.pth" --decoder-config-name modded_dac_vq

🔮 향후 개발 계획

OpenAudio S1은 Qwen3 아키텍처를 기반으로 한 네이티브 멀티모달 모델로, 다음과 같은 다양한 기능을 제공할 예정입니다:

  • TTS (텍스트-투-스피치)
  • STT (스피치-투-텍스트)
  • TextQA
  • AudioQA

현재는 TTS 기능만 출시되었지만, 향후 업데이트를 통해 이 다재다능한 모델의 전체 잠재력이 발휘될 것입니다.

🌟 결론

OpenAudio S1은 음성 합성 기술의 새로운 지평을 열었습니다. 전례 없는 제어력, 품질, 접근성을 제공하는 이 모델은 비디오 콘텐츠, 오디오북, 팟캐스트, AI 동반자 등 다양한 분야에서 활용될 수 있습니다. 자연스럽고 표현력 있으며 감정적으로 공감되는 음성 콘텐츠를 만들고 싶다면, OpenAudio S1이 최적의 선택이 될 것입니다.

Fish Audio Playground에서 OpenAudio S1을 지금 바로 경험해보세요.


자세한 정보는 OpenAudio 공식 웹사이트를 방문하세요