Readify
基于 AI 实现的电子书转有声书工具,兼容 TXT、PDF、EPUB、MOBI、AZW3、DOCX 等主流电子书格式,内置 100+ 种高保真 AI 音色,支持 40+ 种语言,支持站内智能搜书、多设备同步、定时关闭、自定义书库布局等,且针对无障碍用户进行了优化,目前免费无广告,适用于 iOS 和 Android 系统。
https://readifyai.com
频道 @WidgetChannel
12月1日,豆包手机助手技术预览版正式发布,首发搭载于中兴nubia工程样机。
与传统App不同,这款直接嵌入操作系统底层的AI,不仅拥有专属物理按键和“屏幕感知”能力,更展现了令互联网巨头战栗的野心:它试图绕过APP的信息孤岛,直接接管操作权。
据介绍,豆包手机助手,是在豆包APP的基础上,和手机厂商在操作系统层面合作的AI助手软件。
在手机助手的落地路径上,豆包明确表示没有自研手机计划,正与多家手机厂商洽谈,以“生态合作”形式将豆包手机助手整合进不同品牌机型中,相关进展将在后续公布。
现阶段,开发者和科技爱好者可以在豆包与中兴合作的工程样机nubia M153 上,体验豆包手机助手的技术预览版本。目前该版本已面向开发者和科技爱好者少量发售,售价3499元。
一篇题为“使用 LLMs 进行后期多模态传感器融合以进行活动识别”的新论文,揭示了苹果公司可能考虑结合 LLMs 分析与传统传感器数据,以更准确地了解用户的活动。
他们认为,这具有很大的潜力,可以在传感器数据不足的情况下,使活动分析变得更加准确。
传感器数据流为下游应用提供了有关活动和上下文的宝贵信息,不过整合互补信息可能颇具挑战性。
我们的数据表明,大型语言模型(LLMs)可用于对来自音频和运动时间序列数据的活动进行后期融合分类。
我们从 Ego4D 数据集中整理出了一部分数据,用于在不同上下文中(例如家庭活动、体育运动)进行多样化的活动识别。
经过评估的 LLM 实现了显著高于随机水平的 12 类零样本和少样本分类 F1 分数,且无需针对特定任务进行训练。
通过基于 LLM 的融合来自模态特定模型的零样本分类,可以在有限的对齐训练数据用于学习共享嵌入空间的情况下,实现多模态时间应用。
此外,基于 LLM 的融合能够实现模型部署,而无需为特定应用的多模态模型额外占用内存和计算资源。
换句话说,LLMs 实际上非常擅长从基本的音频和运动信号推断用户在做什么,即使他们没有受过专门的训练。此外,当只给出一个例子时,它们的准确性会进一步提高。
在这项研究中,LLM 并没有接收实际的音频录音,而是接收由音频模型和基于 IMU 的运动模型(通过加速度计和陀螺仪数据追踪运动)生成的简短文本描述。
研究人员介绍了他们使用的 Ego4D 数据集,是一个庞大的第一人称视角媒体资料库,涵盖了数千小时的真实环境和场景,包括家庭任务和户外活动。
我们从 Ego4D 数据集中筛选出日常活动,方法是在提供的描述中搜索日常生活中的活动。整理出一个包含 12 个主要活动的 20 秒样本数据集,包括吸尘、做饭、洗衣、吃饭、打篮球、踢足球、与宠物玩耍、读书、使用电脑、洗碗、看电视和锻炼/举重。这些活动的选择旨在涵盖家庭和健身任务的多样性,并且它们在更大数据集中较为常见。
苹果公司在这项研究的同时还发布了补充材料,包括 Ego4D 片段编号、时间戳、提示信息以及用于实验的一次性示例,旨在帮助研究人员复现研究结果。
微软正在为 Windows 11 的 PowerToys 升级其“高级粘贴”工具,允许用户使用本地的 AI 模型来实现部分功能。
在0.96版本的更新中,你可以通过微软的Foundry Local工具或开源的Ollama来路由请求,这两种工具都在你的设备的神经处理单元(NPU)上运行AI模型,而无需连接到云端。
这意味着你无需购买 API 额度即可执行某些操作,比如让 AI 翻译或总结你复制到剪贴板的内容。而且,你可以将数据保存在本地设备上。
除了支持本地 AI 外,现在您还可以将高级粘贴配置为与包括 Azure OpenAI、Gemini 和 Mistral 在内的多个其他在线模型配合使用。此前该工具仅支持 OpenAI。
OpenAI发布了GPT‑5.1-Codex-Max,这是一款面向长时间运行任务设计的新一代Agentic编码模型。
相较于之前的模型,GPT‑5.1-Codex-Max采用了“压缩(compaction)”技术,可在多个上下文窗口间工作,甚至能在单次任务中可靠处理百万级别的Token。OpenAI表示,该模型不仅性能提升,还实现了更快、更高效的Token利用率。
Gemini 3 Pro 目前在 LMArena 排行榜上名列前茅
今天,Google推出了 Gemini 3,该公司声称是其“最智能”和“最准确”的 AI 系统新系列模型。
Gemini 3 Pro 从今天开始在 Gemini 应用中向所有用户开放,位于美国的 Google AI Pro 和 Ultra 订阅用户可以在 AI 模式下通过选择“Thinking”在模型菜单中试用 Gemini 3 Pro。Gemini Agent 首先向 AI Ultra 订阅用户推出。
Gemini 3 Pro 具有“原生多模态”能力,这意味着它可以同时处理文本、图片和音频,而不是分别处理。
例如,Google表示,Gemini 3 Pro 可以用来翻译食谱的照片,然后将其转变为一本食谱书,或者根据一系列视频讲座制作互动式学习卡片。
Google也在暗示地批评 OpenAI,称 Gemini 3 Pro 比 ChatGPT 更不容易受到空洞奉承的影响。
Google DeepMind 的高级总监兼产品负责人Tulsee Doshi 表示,你会注意到 Gemini 3 Pro 的回答会有“明显”的改进,Google描述它为“聪明、简洁、直截了当,摒弃陈词滥调和奉承,提供真正的见解——告诉你你需要知道的,而不是你想听的。”公司还提到,它的“谄媚”程度有所降低,这是 OpenAI 在今年早些时候不得不解决的问题。
除了这些改进,Gemini 3 Pro 还具备更强的推理和自主能力,能够完成更复杂的任务,并且“能够在更长的时间跨度内可靠地进行规划。据Google介绍。这个 AI 模型支持一个实验性的 Gemini Agent 功能,可以代表你在 Gemini 应用中执行任务,比如查看和整理电子邮件,或是进行旅行的研究和预订。
Vave BG
一个 AI 图片素材网站,可将其用于网站、演示、海报或壁纸等多种设计场景,由设计师 Gyo 创建,每日更新约 10 张新作品,图像风格多样,从抽象绘画、城市夜景到极简纹理应有尽有,且每幅作品都有创作提示(prompt),便于用户自行生成,免费可商用,无需注册。
https://vavebg.com
频道 @WidgetChannel
SpleeterGUI
音源分离工具,可将歌曲或音频文件拆分为鼓点、贝斯、人声等独立轨道,可用于重新混音或去除录音中的背景噪音,如鸟鸣、路声或喇叭声。使用前需下载完整模型(约 1.2GB),免费使用。
https://spleetergui.com/
频道 @Edgebyte
▫️隐私保护:无需登录注册,任务记录保存在本地。
▫️前端处理:采用 ffmpeg wasm 技术,无需本地安装 ffmpeg。
▫️多种风格支持:支持小红书/公众号/知识笔记/思维导图/内容总结等多种文档风格支持。
▫️AI 对话:支持针对视频内容进行 AI 二次问答。
▫️支持字幕导出: 结果一键导出为字幕文件。
▫️智能截图: 基于字幕信息智能截图并插入文章, 无需视觉大模型, 实现真正的图文并茂。
▫️支持自定义 Prompt:支持在前端自定义配置 prompt。
▫️一键部署:支持 Docker 一键部署。
▫️支持设置访问密码: 后端设置访问密码之后, 前端用户需要填写该密码才可以正常使用。
📮投稿 📢频道 💬群聊
相比前代版本,Claude Haiku 4.5 的速度提升超过两倍,价格则下降至原来的 1/3.
官方数据显示,Claude Haiku 4.5 与 Claude Sonnet 4 以及 OpenAI 最新的 GPT-5 处于同一水平。
价格方面,Haiku 4.5 的定价为每百万输入 token 1 美元、每百万输出 token 5 美元。
目前,Haiku 4.5 已通过 Claude API、Amazon Bedrock 和 Google Cloud Vertex AI 上线,全面替代 Haiku 3.5 和 Sonnet 4,成为 Anthropic 产品线中「性价比最高」的选择。
📮投稿 📢频道 💬群聊
🆕 News Minimalist - 一个按重要性对新闻进行排名的新闻聚合站点
网站使用 ChatGPT 每天分析约 30,000 篇新闻文章,然后给它们一个从 0 到 10 的重要性分数进行排序。
付费用户可选择性屏蔽、筛选、查看 AI 摘要等
📮投稿 📢频道 💬群聊
Awesome Prompts
一个 AI 精选提示词库,从网络上的开源库和网站收集而来,按模态(文本生成、文生图、文生视频)和任务类型进行了分类整理,点击即可查看对应的类别,支持一键复制,还是挺全的,但有些提示词可能不太新鲜了,有需要的看一下,完全免费。
https://prmbr.com
频道 @WidgetChannel
PDF to Video
基于 AI 实现的 PDF 文件转视频工具,可选择上传 PDF 或输入主题内容、网址,即可自动分析文档内容(文字、图片、版式等),生成场景/动画+语音解说,把静态的 PDF 等内容转成动态的视频,可选视频比例、时间、角色语音等,目前免费使用,无需注册。
https://pdftovideo.ai
频道 @WidgetChannel
AI Prompt 优化工具
AI 提示词优化工具,基于 OpenAI 实现,输入你的初始 Prompt,点击优化按钮,即可使其更加清晰、具体和有效,页面中还给出了优化建议,亲测一句话的 Prompt 也能变得比较具体,免费使用,无需注册。
https://systemprompt.icu
频道 @WidgetChannel