▎小米开源 OmniVoice:一个模型覆盖 600+ 语言的语音克隆 TTS
小米 AI 实验室新一代 Kaldi 团队发布并开源了多语言语音克隆 TTS 模型 OmniVoice。这个模型主打“一个模型覆盖 600+ 语种”,目标是解决现有语音克隆模型多语言覆盖不足、低资源小语种难以合成的问题。官方称,OmniVoice 覆盖 646 种语言,在中英文合成、多语言语音克隆和低资源语种泛化上都达到了较强表现。
OmniVoice 完全基于开源数据训练。团队收集了 50 个开源语音数据集,经过降噪和质量筛选后,构建了覆盖 646 种语言、总时长 58 万小时的多语言训练数据集。为了照顾低资源语言,训练中还使用了动态上采样策略。官方测试显示,在 24 种语言测试中,OmniVoice 的语音相似度和可懂度超过多款商用系统;在 102 种语言测试中,其可懂度接近甚至优于真实语音。
OmniVoice 支持跨语言语音克隆,也就是只提供一种语言的参考音频,就可以生成另一种语言的同音色语音。它还支持文本描述生成音色,例如指定性别、年龄、音调、方言、口音,甚至耳语风格;能处理带噪参考音频,自动提取较清晰的音色特征;还支持笑声、叹气等语气符号,以及对中文多音字、英文专有名词等发音问题进行纠正。
这次开源内容包括训练代码、推理代码和模型权重。项目同时提供论文、GitHub 仓库、语音样本页面、Hugging Face Demo Space 和模型权重。对开发者来说,OmniVoice 的意义在于把多语言语音克隆的门槛进一步降低,尤其是过去很难覆盖的小语种,现在有机会通过一个统一模型获得可用的 TTS 能力。
频道 @AppDoDo 官推 APPDOTG
MTranServer
离线翻译模型服务器,可在只有 CPU 和约 1 GB 内存的环境下运行,无需显卡,单条翻译平均耗时 50 毫秒,支持中、英、德、法、俄、韩、日等主流语言互译,整体特点就是离线、响应快以及无限使用,受限于模型大小和优化程度,翻译质量肯定不如大模型翻译的效果,有需要这种轻量级翻译服务的可以试试,免费开源。
频道 @WidgetChannel
NativeMind
完全本地运行的浏览器 AI 助手插件,支持网页摘要、全文翻译、跨标签对话上下文、在浏览器内检索网页内容并生成答案、与 PDF/图像文件对话问答、写作辅助(改写、润色、生成创意文本)等,无缝集成 gpt-oss、DeepSeek、Qwen、Llama、Gemma、Mistral 等模型,一键加载、切换模型,无需配置,免费开源,无需注册。
频道 @WidgetChannel
SpleeterGUI
音源分离工具,可将歌曲或音频文件拆分为鼓点、贝斯、人声等独立轨道,可用于重新混音或去除录音中的背景噪音,如鸟鸣、路声或喇叭声。使用前需下载完整模型(约 1.2GB),免费使用。
https://spleetergui.com/
频道 @Edgebyte
NocoDB 通过可视化的方式将 MySQL、PostgreSQL、SQL Server、SQLite、MariaDB 等数据库转换为智能电子表格
支持本地部署,也可也在线使用
▫️Teable - 一款开源的无代码数据库
▫️SQL Chat - 一个基于聊天的 SQL 客户端
▫️SQLBot - 基于大模型和 RAG 的智能问数系统
▫️DB-GPT - 一个开源的以数据库为基础的 GPT 实验项目
▫️Chat2DB - 一款适用于各种数据库的智能SQL客户端和报表工具
📮投稿 📢频道 💬群聊
DrawDB
在线数据库设计与 SQL 生成工具,可通过直观的图形界面创建数据库模型,系统会自动生成对应的 SQL 创建脚本,支持 MySQL、MariaDB、PostgreSQL、SQL Server 以及 SQLite 等多种数据库系统,核心功能包括可视化 ER 图设计、表结构定义、字段属性配置、表关系建立和约束设置等,完全免费,无需注册。
https://drawdb.vercel.app
频道 @Edgebyte
#bilibili #开源
Bili2text
一个用于将 Bilibili 视频转换为文本的工具,通过一个简单的流程实现:下载视频、提取音频、分割音频,并使用 whisper 模型将语音转换为文本,整个过程是自动的,只需输入 Bilibili 视频的 av 号即可,整个过程行云流水,一步到位。
https://github.com/lanbinleo/bili2text
频道 @Edgebyte
Bili2text
一个用于将 Bilibili 视频转换为文本的工具,通过一个简单的流程实现:下载视频、提取音频、分割音频,并使用 whisper 模型将语音转换为文本,整个过程是自动的,只需输入 Bilibili 视频的 av 号即可,整个过程行云流水,一步到位。
https://github.com/lanbinleo/bili2text
频道 @Edgebyte
#AI #转录 #开源
aTrain
语音转录与说话人分离工具,结合 Whisper 与 pyannote.audio 模型,可识别多达 99 种语言的语音内容,并自动进行说话人分离,支持处理长视频,支持导出兼容 MAXQDA、ATLAS.ti 和 nVivo 的转录文本,完全本地运行,免费开源,适用于 Windows、macOS 与 Linux 系统。
🐙 项目地址
频道 @WidgetChannel
aTrain
语音转录与说话人分离工具,结合 Whisper 与 pyannote.audio 模型,可识别多达 99 种语言的语音内容,并自动进行说话人分离,支持处理长视频,支持导出兼容 MAXQDA、ATLAS.ti 和 nVivo 的转录文本,完全本地运行,免费开源,适用于 Windows、macOS 与 Linux 系统。
🐙 项目地址
频道 @WidgetChannel
#电子书 #听书 #开源
Audiblez
电子书转有声书工具,基于 Kokoro-82M 模型实现,可将 epub 文本转换为 m4b 音频,支持 8 种中文音色,以及中英日法等多种语言,支持选择语音性别和播放速度,支持 CUDA 加速,但 CPU 也可以跑,只是处理速度差异很大,免费开源。
这个有门槛啊,需要自行部署。
🐙 项目地址
频道 @WidgetChannel
Audiblez
电子书转有声书工具,基于 Kokoro-82M 模型实现,可将 epub 文本转换为 m4b 音频,支持 8 种中文音色,以及中英日法等多种语言,支持选择语音性别和播放速度,支持 CUDA 加速,但 CPU 也可以跑,只是处理速度差异很大,免费开源。
这个有门槛啊,需要自行部署。
🐙 项目地址
频道 @WidgetChannel
#开源 #跨平台 #输入法 #脚本
⌨️ 万象拼音 - 又一个 Rime 输入法方案!
🔗 基础班 | 增强版 | 语法模型
万象拼音是一个全面构建 Rime 输入生态的系列方案,涵盖:
支持 Windows、macOS、Linux、Android、iOS、HarmonyOS
➡️ 已收录至「输入法」
📮投稿 📢频道 💬群聊 🔎索引
⌨️ 万象拼音 - 又一个 Rime 输入法方案!
🔗 基础班 | 增强版 | 语法模型
万象拼音是一个全面构建 Rime 输入生态的系列方案,涵盖:
▫️拼音输入方案(基础版 / 增强版)Rime 类大厂输入方案,完美的整句输入体验,某种程度更是超越
▫️自定义语言模型(语法模型 / 预测模型),Rime 唯一 200M 规模语法模型,覆盖面广,开源炼制方法,持续更新
▫️高精度多音字处理与整句输入支持,在这里还能找到 pypinyin 最实用数据库和词库注音脚本工具链,全部多音字参与词汇人工持续修订,拥有完整的经语料炼化的向量词库,并为之区分和加注多音字读音,数据量是开源之最
▫️项目融合 AI 精选词库与 32GB 多领域语料训练的模型,极大提升输入效率与准确性
支持 Windows、macOS、Linux、Android、iOS、HarmonyOS
➡️ 已收录至「输入法」
📮投稿 📢频道 💬群聊 🔎索引