#互联网观察 #开源

小米开源 OmniVoice:一个模型覆盖 600+ 语言的语音克隆 TTS

小米 AI 实验室新一代 Kaldi 团队发布并开源了多语言语音克隆 TTS 模型 OmniVoice。这个模型主打“一个模型覆盖 600+ 语种”,目标是解决现有语音克隆模型多语言覆盖不足、低资源小语种难以合成的问题。官方称,OmniVoice 覆盖 646 种语言,在中英文合成、多语言语音克隆和低资源语种泛化上都达到了较强表现。

OmniVoice 完全基于开源数据训练。团队收集了 50 个开源语音数据集,经过降噪和质量筛选后,构建了覆盖 646 种语言、总时长 58 万小时的多语言训练数据集。为了照顾低资源语言,训练中还使用了动态上采样策略。官方测试显示,在 24 种语言测试中,OmniVoice 的语音相似度和可懂度超过多款商用系统;在 102 种语言测试中,其可懂度接近甚至优于真实语音。

OmniVoice 支持跨语言语音克隆,也就是只提供一种语言的参考音频,就可以生成另一种语言的同音色语音。它还支持文本描述生成音色,例如指定性别、年龄、音调、方言、口音,甚至耳语风格;能处理带噪参考音频,自动提取较清晰的音色特征;还支持笑声、叹气等语气符号,以及对中文多音字、英文专有名词等发音问题进行纠正。

这次开源内容包括训练代码、推理代码和模型权重。项目同时提供论文、GitHub 仓库、语音样本页面、Hugging Face Demo Space 和模型权重。对开发者来说,OmniVoice 的意义在于把多语言语音克隆的门槛进一步降低,尤其是过去很难覆盖的小语种,现在有机会通过一个统一模型获得可用的 TTS 能力。

频道 @AppDoDo 官推 APPDOTG
 
 
Back to Top