FireRedTTS2
长对话语音合成系统,可通过提供文本和可选参考音频生成自然流畅的语音输出,支持长对话场景下的连续发言,确保语气与节奏自然连贯,支持中文、英文、日文、韩文、法文、德文及俄文,具备零样本语音克隆能力,适用于播客、聊天机器人等多发言人场景,免费开源,使用 Python 开发。
频道 @WidgetChannel
对话翻译器
将耳机变成实时翻译器,可通过耳机实时收听翻译,左右耳分别播放对话双方语言,还支持文本翻译、相机拍照翻译、离线翻译、AI 对话问答翻译记录等功能,适合出国旅游和跨国团队沟通场景,免费无广告,无需注册。
https://www.talk-translator.com
频道 @WidgetChannel
LazyTyper
基于 Whisper 模型的语音输入工具,准确率高达 90% 以上,转写速度极快,支持中英日韩等多语言无缝混合输入,体积仅个位数 MB,且占用内存极低,完全免费,适用于 Windows 和 macOS 系统。
V2EX 原帖 ,看评论区挺牛逼的,感兴趣的可以玩玩。
https://lazytyper.com/zh
频道 @WidgetChannel
#AI #语音 #输入法
Whisper Keyboard
基于 Whisper 模型的语音输入工具,能将语音实时转为文本,可实现“边说边写”,并可通过语音执行换行、删除、撤销、标点、表情、格式、发送等操作,支持多语言识别、上下文理解和实时编辑,纯本地运行,不方便打字或者想解放双手的可以试试,目前免费,后续可能会收费。
🌐 主页 🌐 演示视频
频道 @WidgetChannel
Whisper Keyboard
基于 Whisper 模型的语音输入工具,能将语音实时转为文本,可实现“边说边写”,并可通过语音执行换行、删除、撤销、标点、表情、格式、发送等操作,支持多语言识别、上下文理解和实时编辑,纯本地运行,不方便打字或者想解放双手的可以试试,目前免费,后续可能会收费。
🌐 主页 🌐 演示视频
频道 @WidgetChannel
#AI #语音 #对话 #开源
Sesame CSM
一个对话语音模型,可以像语音电话一样与 AI 聊天谈话,特点是语气更加自然连贯,官方有更专业全面的介绍,目前仅支持英语,但后续会支持更多语言,且会在未来 1-2 周内开源。
我简单试了一下,挺牛逼的,第一时间想到的就是用来练习英语口语,不用担心尴尬,也不用担心对方的态度。
🌐演示地址 🐙项目地址
频道 @WidgetChannel
Sesame CSM
一个对话语音模型,可以像语音电话一样与 AI 聊天谈话,特点是语气更加自然连贯,官方有更专业全面的介绍,目前仅支持英语,但后续会支持更多语言,且会在未来 1-2 周内开源。
我简单试了一下,挺牛逼的,第一时间想到的就是用来练习英语口语,不用担心尴尬,也不用担心对方的态度。
🌐演示地址 🐙项目地址
频道 @WidgetChannel
Insanely Fast Whisper
基于 Whisper Large v3 模型的语音转文字工具,使用了 Transformers、Optimum 和 flash-attn 技术,转换 150 分钟的音频最快仅需 98 秒。
极快的转换速度,加上较高的精确度,算是 AI 落地很实用的一个工具了,转录会议记录之类的很方便,建议收藏。
在线体验 丨 GitHub
频道 @WidgetChannel