#互联网观察 #开源▎小米开源 OmniVoice：一个模型覆盖 600+ 语言的语音克隆 TTS小米 AI 实验室新一代 Kaldi 团队发布并开源了多语言语音克隆 TTS 模型 OmniVoice

#互联网观察 #开源

▎小米开源 OmniVoice：一个模型覆盖 600+ 语言的语音克隆 TTS

小米 AI 实验室新一代 Kaldi 团队发布并开源了多语言语音克隆 TTS 模型 OmniVoice。这个模型主打“一个模型覆盖 600+ 语种”，目标是解决现有语音克隆模型多语言覆盖不足、低资源小语种难以合成的问题。官方称，OmniVoice 覆盖 646 种语言，在中英文合成、多语言语音克隆和低资源语种泛化上都达到了较强表现。

OmniVoice 完全基于开源数据训练。团队收集了 50 个开源语音数据集，经过降噪和质量筛选后，构建了覆盖 646 种语言、总时长 58 万小时的多语言训练数据集。为了照顾低资源语言，训练中还使用了动态上采样策略。官方测试显示，在 24 种语言测试中，OmniVoice 的语音相似度和可懂度超过多款商用系统；在 102 种语言测试中，其可懂度接近甚至优于真实语音。

OmniVoice 支持跨语言语音克隆，也就是只提供一种语言的参考音频，就可以生成另一种语言的同音色语音。它还支持文本描述生成音色，例如指定性别、年龄、音调、方言、口音，甚至耳语风格；能处理带噪参考音频，自动提取较清晰的音色特征；还支持笑声、叹气等语气符号，以及对中文多音字、英文专有名词等发音问题进行纠正。

这次开源内容包括训练代码、推理代码和模型权重。项目同时提供论文、GitHub 仓库、语音样本页面、Hugging Face Demo Space 和模型权重。对开发者来说，OmniVoice 的意义在于把多语言语音克隆的门槛进一步降低，尤其是过去很难覆盖的小语种，现在有机会通过一个统一模型获得可用的 TTS 能力。

频道 @AppDoDo 官推 APPDOTG