PANews 5月7日消息,小米AI实验室推出多语言语音克隆TTS模型OmniVoice,采用单一双向Transformer极简架构,支持646种语言语音合成,在中英文场景的合成质量和推理速度优于主流模型。该模型基于约58万小时、50个开源数据集训练,对低资源语种使用动态上采样策略,在24种与102种语言测试中语音相似度和可懂度超越多款商用系统,部分指标接近甚至优于真实语音。OmniVoice支持跨语言语音克隆、自定义音色、带噪参考音频适配、副语言控制和发音纠错,并已在Github和Huggingface等平台开源训练、推理代码及模型权重。
小米开源覆盖600多语言的语音克隆TTS模型OmniVoice
分享至:
作者:PA一线
本内容只为提供市场信息,不构成投资建议。
关注PANews官方账号,一起穿越牛熊
推荐阅读




