PANews는 5월 7일 샤오미 AI 랩이 다국어 음성 복제 TTS 모델인 OmniVoice를 출시했다고 보도했습니다. 최소한의 단방향 양방향 트랜스포머 아키텍처를 채택한 이 모델은 646개 언어의 음성 합성을 지원하며, 중국어와 영어 시나리오 모두에서 합성 품질과 추론 속도 면에서 기존 모델들을 능가합니다. 약 58만 시간 분량의 50개 오픈 소스 데이터셋으로 학습된 이 모델은 리소스가 부족한 언어를 위해 동적 업샘플링 전략을 사용합니다. 24개 및 102개 언어 테스트에서 음성 유사도와 명료도는 많은 상용 시스템을 능가하며, 일부 지표는 실제 음성에 근접하거나 이를 뛰어넘습니다. OmniVoice는 교차 언어 음성 복제, 사용자 지정 음색, 노이즈 참조 오디오 적응, 하위 언어 제어 및 발음 교정을 지원합니다. 학습 및 추론 코드와 모델 가중치는 GitHub 및 Huggingface와 같은 플랫폼에서 오픈 소스로 제공됩니다.
샤오미는 600개 이상의 언어를 지원하는 음성 복제 TTS 모델인 OmniVoice를 오픈소스로 공개했습니다.
공유하기:
작성자: PA一线
이 내용은 시장 정보 제공만을 목적으로 하며, 투자 조언을 구성하지 않습니다.
PANews 공식 계정을 팔로우하고 함께 상승장과 하락장을 헤쳐나가세요
추천 읽기
관련 특집
PANews 앱
24시간 블록체인 업계 소식을 추적하고 심층 기사를 분석합니다.




