OpenAudio S1 소개: 차세대 AI 음성 합성 기술

OpenAudio가 혁신적인 새로운 시리즈의 고급 텍스트-투-스피치(TTS) 모델을 출시했습니다. Fish-Speech의 기반을 바탕으로 품질, 성능, 기능성에서 큰 발전을 이루어낸 첫 번째 모델, OpenAudio-S1을 소개합니다.

🏆 최첨단 성능

OpenAudio S1은 TTS 산업의 새로운 기준을 제시하는 놀라운 성과를 거두었습니다:

비교 불가능한 정확도: Seed TTS Eval에서 0.008 WER과 0.004 CER이라는 압도적인 수치 달성
TTS-Arena 챔피언: TTS-Arena2 벤치마크에서 1위를 차지
뛰어난 화자 유사도: 0.332의 화자 거리 점수로 자연스러운 음성 구현

🎭 고급 음성 제어

OpenAudio S1의 가장 큰 특징은 정교한 감정과 톤 제어 시스템입니다. 다양한 상황과 감정을 표현할 수 있는 광범위한 마커를 지원합니다:

기본 감정

(화난), (슬픈), (흥분한), (놀란), (만족한), (기쁜)
(겁에 질린), (걱정스러운), (화가 난), (긴장한), (좌절한), (우울한)
(공감하는), (당황한), (역겨운), (감동한), (자랑스러운), (편안한)

고급 감정

(경멸하는), (불행한), (불안한), (히스테리한), (무관심한)
(참을성 없는), (죄책감 있는), (비웃는), (공황 상태의), (분노한), (꺼리는)
(열정적인), (비난하는), (부정적인), (부인하는), (놀란), (진지한)

특수 효과

(웃는), (낄낄거리는), (흐느끼는), (큰소리로 우는), (한숨 쉬는), (헐떡이는)
(군중 웃음), (배경 웃음), (청중 웃음)

🌍 다국어 지원

OpenAudio S1은 다양한 언어를 네이티브로 지원하여 글로벌 사용자들의 요구를 충족합니다:

영어, 중국어, 일본어, 독일어, 프랑스어, 스페인어
한국어, 아랍어, 러시아어, 네덜란드어, 이탈리아어, 폴란드어, 포르투갈어

💻 모델 변형

사용자의 다양한 요구사항에 맞춰 두 가지 버전을 제공합니다:

모델	크기	특징	구매처
S1	4B 파라미터	모든 기능을 갖춘 플래그십 모델	fish.audio
S1-mini	0.5B 파라미터	핵심 기능을 갖춘 경량화 버전	Hugging Face

🚀 주요 특징

제로샷 & 퓨샷 TTS: 단 10-30초의 음성 샘플만으로 고품질 TTS 출력을 생성할 수 있습니다
음소 의존성 없음: 음소에 의존하지 않는 강력한 일반화 능력으로 더 자연스러운 음성 구현
빠른 추론: RTX 4060에서 약 1:5, RTX 4090에서 약 1:15의 실시간 비율로 효율적인 처리
다양한 인터페이스 옵션: WebUI, GUI, HTTP API 등 다양한 방식으로 접근 가능
경제적인 가격: 100만 바이트당 $15(시간당 약 $0.8)의 합리적인 가격 정책

🛠️ 시작하기

시스템 요구사항

권장: 12GB VRAM (원활한 추론을 위해)
지원 플랫폼: Linux, Windows (macOS 출시 예정)

빠른 시작 가이드

가중치 다운로드:

huggingface-cli download fishaudio/openaudio-s1-mini --local-dir checkpoints/openaudio-s1-mini

명령줄 추론:

# 참조 오디오에서 VQ 토큰 얻기
python fish_speech/models/dac/inference.py -i "ref_audio_name.wav" --checkpoint-path "checkpoints/openaudio-s1-mini/codec.pth"

# 의미 토큰 생성
python fish_speech/models/text2semantic/inference.py --text "변환할 텍스트" --prompt-text "참조 텍스트" --prompt-tokens "fake.npy" --compile

# 음성 생성
python fish_speech/models/dac/inference.py -i "codes_0.npy"

WebUI 설정:

python -m tools.run_webui --llama-checkpoint-path "checkpoints/openaudio-s1-mini" --decoder-checkpoint-path "checkpoints/openaudio-s1-mini/codec.pth" --decoder-config-name modded_dac_vq

🔮 향후 개발 계획

OpenAudio S1은 Qwen3 아키텍처를 기반으로 한 네이티브 멀티모달 모델로, 다음과 같은 다양한 기능을 제공할 예정입니다:

TTS (텍스트-투-스피치)
STT (스피치-투-텍스트)
TextQA
AudioQA

현재는 TTS 기능만 출시되었지만, 향후 업데이트를 통해 이 다재다능한 모델의 전체 잠재력이 발휘될 것입니다.

🌟 결론

OpenAudio S1은 음성 합성 기술의 새로운 지평을 열었습니다. 전례 없는 제어력, 품질, 접근성을 제공하는 이 모델은 비디오 콘텐츠, 오디오북, 팟캐스트, AI 동반자 등 다양한 분야에서 활용될 수 있습니다. 자연스럽고 표현력 있으며 감정적으로 공감되는 음성 콘텐츠를 만들고 싶다면, OpenAudio S1이 최적의 선택이 될 것입니다.

Fish Audio Playground에서 OpenAudio S1을 지금 바로 경험해보세요.

자세한 정보는 OpenAudio 공식 웹사이트를 방문하세요