#AI论文

ePN🌐IPLC专线推荐选购指南：
https://iplc.best/

🤝 联系频道主：
@IPLC_BEST_CHATBOT

21:52 · 2026年5月20日 · 周三

这是一款提供全天候免提协助的智能眼镜，将于今秋上市。

新款音频眼镜可让 Gemini 随时为你提供帮助，比如拍照、在新城市导航，或将音频内容进行实时翻译。Audio Glasses支持与 Android 及 iOS 手机配对使用。

• Gemini 月活用户达9 亿

谷歌搜索现在由Gemini 3.5加持、具备大规模执行任务能力

该功能将先向 Google AI Pro 和 Ultra 订阅用户逐步推出

Google 推出CodeMender API，一种代码安全代理，可自动发现并修复关键的软件漏洞。

今天，我们将邀请一小部分精选专家来进行测试，并计划很快更广泛地推出。

面向科学的 Gemini，旨在加速科研进程

Gemini 已经可以帮助解决复杂问题，而我们全新的 GoogleLabs 原型还能进一步简化更多日常科研任务，包括：

• 跟进最新论文
• 把研究目标转化成可直接使用的代码
• 生成新的假设

AI 模拟是面向科学的中另一个强有力的工具，能够帮助我们理解并预测动态系统。

Google 推出Google Pics

Google Workspace 新增一款全新产品，让你获得更强的创作掌控力。

这是一款图像创建与编辑工具，几乎能帮你做出任何想要的作品——比如派对传单和信息图表。它会自动识别并分割照片中的各个对象，理解它们之间的关系，让你只需点击几下就能轻松完成编辑。

Pics 将于今天先向一小部分“可信测试员”开放，随后在今年夏天晚些时候，面向全球的 Google AI Pro 和 Ultra 订阅用户推出。

Stitch by Google现在能够实时生成移动端和 Web 应用的界面（UI）

今天起开始免费向全球用户逐步推出。

你可以让 Stitch 根据你的提示设计一款移动端应用，并通过语音和文字编辑备注对设计进行打磨——就像和设计伙伴协作一样。准备上线时，可将设计导入 Google Antigravity 或 GoogleAIStudio ，并进行发布。

Google Flow多项更新

• 新增Gemini Omni Flash：只需提供简短提示和风格参考，Gemini Omni 就能在保留原始性能的同时，改变现有场景的环境，添加视觉效果及其他元素。

• 新增Google Flow 代理：集成Gemini 的智能代理能力，现在你的智能体可以同时执行多个操作。该代理还能凭借对上下文的精准理解，完成大规模编辑任务。

• 新增Google Flow 工具：现在你可以为任何你想到的创意工具“尽情编写代码”，比如设计视频特效或手绘动画。你还能在Google Flow上直接创建、分享并对这些工具进行再创作（remix）。

• 新增Google Flow Music：还在脑海里挥之不去的旋律？现在你可以在 Google Flow Music 上创作自己的歌曲。你只要把即兴创作录进 Google Flow Music，并用你想要的音乐风格来给它下指令——比如更精致的 R&B。Google Flow Music 会先给你打好基础，之后你就能直接在这个工具里继续微调完善。

新增 Universal Cart（环球购物车），Google 上全新的购物中心

你可以在Google引擎、Gemini App、YouTube或Gmail购物时，将商品添加到购物车。

系统将查找优惠和降价信息，给你带来价格历史的洞察，并在某件商品重新上架时及时提醒你。

它能帮你发现隐藏的优惠。由于它是基于 Google 钱包打造的，你的购物车会识别你的支付方式特权、会员/忠诚度信息以及商家优惠，这样你就不会错过任何优惠或积分。

• 通用商务协议（Universal Commerce Protocol：一项开源标准，它为代理和系统提供共同语言，使所有关键参与者能够携手协作。

• Agent Payments Protocol（AP2）：让你的 AI 代理在明确边界与责任的框架下，安全地替你完成支付。

• Android Halo: 为你的代理在 Android 设备上提供的全新空间。今年晚些时候，它将让你一眼掌握各个代理的状态，从屏幕顶部就能直接看到他们的进展。Halo 将支持与 Gemini Spark 及其他兼容的智能代理协同工作。

🗒 标签: #Google #Gemini #AI #Flow #Pics #智能眼镜 #Stitch
📢 频道: @GodlyNews1
🤖 投稿: @GodlyNewsBot

Google Gemini AI Flow Pics 智能眼镜 Stitch

21:54 · 2026年4月22日 · 周三

Google Cloud推出Workspace Intelligence，以及用于AI 的TPU 8T和TPU 8I芯片

在 Cloud Next 2026大会上，Google推出了“Workspace Intelligence”(工作区智能)，旨在为每个应用提供“高度准确、个性化的上下文”。

该系统“理解复杂的语义关系”，涵盖 Gmail、Docs 及其他 Workspace 应用中的数据、你正在进行的项目、协作者以及其他公司特定的信息。Workspace Intelligence 利用 Google 的搜索能力和先进的 Gemini 推理来实现

• 信息收集：Workspace Intelligence 负责繁重的工作，为你收集正确的信息。它打破上下文壁垒，确保你在需要采取行动的瞬间就拥有所需的一切。

• 情境感知：借助高级的 Gemini 推理能力，Workspace Intelligence 能知道此刻对你最重要的是什么——确保你永远不会错过任何待办事项。

• 真正的个性化：通过理解你过去的工作和沟通模式，Workspace Intelligence 学会你的独特工作风格、语气和格式偏好，确保每一份输出都听起来像真正的你。
通过利用贯穿会议记录、电子邮件、文件等数字工作流的深层语义上下文，它创建了一个以你独特背景为基础的智能层，能够从根本上改变你的工作方式。

使用场景

你可以在Google Chat中向 Gemini 提问可以完成你交代的复杂任务，包括生成文档和幻灯片、根据描述搜索文件，以及在考虑所有人日程的情况下找出合适的会议时间。它还可以创建每日简报并与第三方工具集成，如 Asana、Jira 和 Salesforce。

在 Google Docs中，Gemini 可以使用 Workspace Intelligence 根据“你的业务数据”创建信息图。它可以同时编辑多张图片，“以在你的文档中创建视觉一致性”。另一项功能可以“对文档中的评论进行分类和回复，甚至根据评论反馈编辑你的文档”。

在 Google Slides 中，Gemini 利用 Workspace Intelligence 提供上下文信息，并严格遵循“贵公司的模板和视觉风格”，一次性生成幻灯片。在 Google Sheets 中，它用于以对话方式创建和编辑电子表格。

Workspace Intelligence 可从网络上检索您的相关电子邮件、聊天记录、文件和信息，将您的想法转化为专业格式的草稿，完美地模仿您的声音、品牌、风格和公司模板。

Google还发布了第八代TPU（张量处理单元）。今年的一个亮点是推出了“两种专为训练和推理设计的不同架构”。

TPU 8t（图左侧）用于训练，目标是将前沿模型的开发周期从几个月缩短到几周。与上一代相比，它在性价比上提高了 2.8 倍。其主要特性包括：

• 大规模扩展：单个 TPU 8t superpod 现在可扩展至 9,600 块芯片，配备 2 PB 共享高带宽内存，且芯片间带宽是上一代的两倍。该架构可提供 121 ExaFlops 的计算能力，让最复杂的模型能够使用一个巨大的统一内存池。

• 最大化利用率：通过将存储访问速度提升 10 倍，并使用 TPUDirect 将数据直接传入 TPU，TPU 8t 可确保端到端系统得到充分利用。

• 近乎线性扩展：借助我们新的 Virgo 网络、JAX 和 Pathways 软件，TPU 8t 能在单个逻辑集群内实现对多达一百万块芯片的近乎线性扩展。

TPU 8i（图右侧）用于推理或运行模型。它的每美元性能比之前提升了 80%，Google称这意味着公司可以“用相同的成本服务几乎两倍的客户量。”

• 打破“内存瓶颈”：为避免处理器闲置，TPU 8i 将 288 GB 高带宽内存与 384 MB 片上 SRAM 配合使用——比上一代增加了 3 倍——可以把模型的活跃工作集完全保存在芯片上。

• Axion 驱动的高效能：我们把每台服务器上的物理 CPU 主机数量翻了一番，采用了我们定制的基于 Arm 的 Axion 处理器。为实现隔离并提升性能，我们采用了非统一内存架构（NUMA），并对整个平台进行了全面优化。

• 针对现代的混合专家（MoE）模型，我们把互连（ICI）带宽提升到 19.2 Tb/s。新的 Boardfly 架构将最大网络直径缩小了一半以上，保证整套系统作为一个统一且低延迟的整体运行。

• 消除卡顿：我们的新型片上“集合加速引擎”（CAE）负责处理全局操作，可将片上延迟最多降低 5 倍，从而显著减少卡顿。

🗒 标签: #Google #TPU #AI #Workspace
📢 频道: @GodlyNews1
🤖 投稿: @GodlyNewsBot

Google TPU AI Workspace

21:51 · 2026年4月22日 · 周三

OpenAI推出GPT-Image-2 模型

具备“思考”的图像功能已向 ChatGPT Plus、Pro 和 Business 用户开放（企业版即将推出），底层模型 gpt-image-2 已在 API 中可用。

ChatGPT Images 2.0是OpenAI首个具备“思考”能力的图像模型。无需参考图、仅凭简短提示词，即可生成以假乱真的TikTok截图、论文海报、商品广告。

Thinking能力的加入，使得模型可以处理更复杂的任务，在准确性、时效性、一致性和视觉连贯性上有更加强大的表现。

在API中，ChatGPT Images 2.0最高支持生成2K分辨率的图像。

它还具备更强的多语言理解能力、支持最宽3:1、最窄1:3的图片比例、一次提示最多可生成8个输出，并且图中的角色和物体能保持连续性。

ChatGPT Images 2.0 的知识库已更新至 2025 年 12 月，具备能够端到端完成各类复杂任务的智能——无论是撰写文案、进行分析，还是进行设计构图，都能胜任并交付专业成果。

在大模型竞技场上，ChatGPT Images 2.0已登顶第一，并且在文本到图像任务中，断层领先第二名Nano Banana 2 240分。

🗒 标签: #OpenAI #GPT #AI #图像
📢 频道: @GodlyNews1
🤖 投稿: @GodlyNewsBot

22:34 · 2025年12月17日 · 周三

📮 接读者来稿，TA向我们推荐了自己开发AI有声听书软件

🎧 Readify是一款完全免费的AI听书应用，让你轻松把任何电子书变成自然流畅的有声书。无论你在通勤、休息，还是想在夜晚闭眼聆听故事，Readify都能让阅读变得更自由。

🔗

官网 / App Store / Google Play

✨ 核心功能亮点

📖 多格式文件支持
兼容 TXT、PDF、EPUB、MOBI、AZW3、DOCX 等主流电子书格式，上传即可自动转换为可听内容。

🎙️ AI音色库
内置 100+ 种高保真AI音色，支持 40+ 种语言。我们的AI语音拥有顶级自然效果，语气丰富、有温度，媲美真人朗读。

🔍 AI搜书
支持站内智能搜书，只需挂梯子即可免费下载书籍。
不知道看什么？在搜索栏描述你的喜好类型，AI会为你推荐合适的作品。

💬 AI问答助手
听书不止于听。任何书中人物、概念或情节疑问，都能即时提问，让AI帮你更深度理解书籍。

💻多设备同步
只要相同账号，你的书库将会在多端同步，省去重复上传的无聊过程

其他功能：
- 定时关闭：睡前听书不怕忘记关。
- 自定义书库布局：列表/宫格模式随心切换。
- 高度自定义读书页面，不仅能听，还能读的顺心！
- 纯净体验：无任何广告打扰，只专注于阅读与聆听。

🌍 无障碍优化，为视障用户发声
Readify 正在持续推进应用无障碍优化。我们已聚集超过 100名视障用户，根据他们的实际反馈进行定向改进。

目前，iOS端的VoiceOver旁白模式已可完整使用包括听书、搜书在内的全部功能。
我们相信——阅读的权利，不应被视觉所限制。

🎁 目前100%免费使用

via Arthur Steinberg

🗒 标签: #Readify #有声书 #AI #无障碍
📢 频道: @GodlyNews1
🤖 投稿: @GodlyNewsBot

Readify 有声书 AI 无障碍

21:39 · 2025年11月22日 · 周六

苹果最新研究表明，LLMs 可以通过音频和运动数据判断你正在做什么

一篇题为“使用 LLMs 进行后期多模态传感器融合以进行活动识别”的新论文，揭示了苹果公司可能考虑结合 LLMs 分析与传统传感器数据，以更准确地了解用户的活动。

他们认为，这具有很大的潜力，可以在传感器数据不足的情况下，使活动分析变得更加准确。

传感器数据流为下游应用提供了有关活动和上下文的宝贵信息，不过整合互补信息可能颇具挑战性。

我们的数据表明，大型语言模型（LLMs）可用于对来自音频和运动时间序列数据的活动进行后期融合分类。

我们从 Ego4D 数据集中整理出了一部分数据，用于在不同上下文中（例如家庭活动、体育运动）进行多样化的活动识别。

经过评估的 LLM 实现了显著高于随机水平的 12 类零样本和少样本分类 F1 分数，且无需针对特定任务进行训练。

通过基于 LLM 的融合来自模态特定模型的零样本分类，可以在有限的对齐训练数据用于学习共享嵌入空间的情况下，实现多模态时间应用。

此外，基于 LLM 的融合能够实现模型部署，而无需为特定应用的多模态模型额外占用内存和计算资源。

换句话说，LLMs 实际上非常擅长从基本的音频和运动信号推断用户在做什么，即使他们没有受过专门的训练。此外，当只给出一个例子时，它们的准确性会进一步提高。

在这项研究中，LLM 并没有接收实际的音频录音，而是接收由音频模型和基于 IMU 的运动模型（通过加速度计和陀螺仪数据追踪运动）生成的简短文本描述。

研究人员介绍了他们使用的 Ego4D 数据集，是一个庞大的第一人称视角媒体资料库，涵盖了数千小时的真实环境和场景，包括家庭任务和户外活动。

我们从 Ego4D 数据集中筛选出日常活动，方法是在提供的描述中搜索日常生活中的活动。整理出一个包含 12 个主要活动的 20 秒样本数据集，包括吸尘、做饭、洗衣、吃饭、打篮球、踢足球、与宠物玩耍、读书、使用电脑、洗碗、看电视和锻炼/举重。这些活动的选择旨在涵盖家庭和健身任务的多样性，并且它们在更大数据集中较为常见。

苹果公司在这项研究的同时还发布了补充材料，包括 Ego4D 片段编号、时间戳、提示信息以及用于实验的一次性示例，旨在帮助研究人员复现研究结果。

🗒 标签: #Apple #LLMs #AI
📢 频道: @GodlyNews1
🤖 投稿: @GodlyNewsBot

Apple LLMs AI

22:14 · 2025年10月7日 · 周二

#学术 #论文 #AI

WisPaper

AI 驱动的学术文献检索服务，可通过自然语言描述来检索主流学术数据库，支持将宽泛的问题或关键词迅速筛选成高相关度的论文列表，提供智能排序与评分机制，支持过滤条件如发布日期、期刊声誉、作者影响力等，还具备摘要生成与批注，多主题查询与子议题拆解，完全免费，需要注册。

由复旦大学团队自主研发，专为学术研究人员打造。

https://www.wispaper.ai

频道 @WidgetChannel

学术论文 AI

23:40 · 2025年8月29日 · 周五

OpenAI发布gpt-realtime和Realtime API更新

OpenAI今天正式发布Realtime API，并带来了多项新功能，旨在帮助开发者和企业构建可靠的、可用于生产环境的语音代理。

该API现在支持远程MCP服务器、图像输入以及通过会话发起协议（SIP）进行电话呼叫，通过接入更多工具和上下文信息，让语音代理的功能变得更加强大。

OpenAI还发布了迄今为止最先进的语音到语音（speech-to-speech）模型——gpt-realtime。新模型在遵循复杂指令、精准调用工具以及生成更自然、更具表现力的语音方面，都表现更佳。

它能更好地解读系统消息和开发者提示，无论是在支持通话中逐字逐句地念出免责声明脚本，复述字母数字组合，还是在一句话中无缝切换语言。新推出的Cedar和Marin两种新声音，从今天起，它们将作为Realtime API的专属声音提供。

OpenAI表示，自去年10月首次推出Realtime API的公开测试版以来，已有数千名开发者使用该API进行构建，并帮助我们完成了今天发布的这些改进。

这些改进针对可靠性、低延迟和高品质进行了优化，旨在帮助开发者在生产环境中成功部署语音代理。与传统的处理流程（需要将语音转文本和文本转语音等多个模型链接在一起）不同，Realtime API通过单个模型和API直接处理并生成音频。

这不仅降低了延迟，保留了语音中的细微差别，还能生成更自然、更具表现力的回应。

via 匿名

🗒 标签: #OpenAI #AI #API
📢 频道: @GodlyNews1
🤖 投稿: @GodlyNewsBot

OpenAI AI API

22:09 · 2025年7月10日 · 周四

Study Together —— OpenAI的互动式学习新体验

🧑‍💻 ChatGPT最新推出“Study Together”模式，和以往直接给答案不同，这次它更像是一位耐心的导师。它会不断抛出引导性问题，带你一步步拆解难题，帮助你真正理解知识的来龙去脉

🔍 这种方式让学习变得更主动。每次与AI对话，都是一次头脑风暴。你不再只是被动接受信息，而是在互动中不断思考和反思，找到属于自己的解题思路

💡 AI个性化辅导的潜力正在被释放。无论是自学新知识，还是备考难题，“Study Together”都能根据你的反馈调整节奏，模拟出一对一辅导的感觉。对于追求高效、深入学习的科技用户来说，这或许是AI教育的下一个重要节点

📮 这篇文章是转发给你的吗？点击这里加入频道，一起探索更多有趣的内容！

Roller | AI AGENT 中文社区

有趣的 AI 科技日记
💬 群组: t.me/+XThkfMjY1bRiYTVh
🪄 由@bnl5110和@endingwalker一同撰写

#DeepSeek #GenAI #AIGC #互联网 #科技 #人工智能 #AI产品 #ChatGPT #Claude
谢谢订阅，喝杯茶再走？🍵

21:35 · 2025年5月8日 · 周四

Mistral发布AI模型Mistral Medium 3 平衡效率与性能

法国人工智能初创公司 Mistral 正在发布一种新的人工智能模型 Mistral Medium 3，该模型注重效率，同时不影响性能。

Mistral 在其 API 中提供，价格为每百万输入词元 0.40 美元，每百万输出词元 2 美元。

Mistral 声称，Mistral Medium 3 在“所有基准测试”中的表现“达到或超过”了 Anthropic 更昂贵的 Claude Sonnet 3.7 模型的 90%。在热门的 AI 性能评估中，它的表现也超越了最近的开放模型，包括 Meta 的 Llama 4 Maverick 和 Cohere 的 Command A。

标记是数据模型所使用的原始数据，一百万个标记相当于约 750000 个单词（比《战争与和平》长约 163000 个单词）。

Mistral 在一篇博文中解释道：“Mistral Medium 3 可以部署在任何云端，包括拥有 4 个及以上 GPU 的自托管环境。在定价方面，无论是 API 还是自部署系统，该模型都优于 DeepSeek v3 等成本领先者。”

🗒 标签: #Mistral #AI
📢 频道: @GodlyNews1
🤖 投稿: @GodlyNewsBot

cnBeta.COM

Mistral发布AI模型Mistral Medium 3 平衡效率与性能

法国人工智能初创公司Mistral正在发布一种新的人工智能模型MistralMedium3，该模型注重效率，同时不影响性能。Mistral在其API中提供，价格为每百万输入词元 0.40美元，每百万输出词元 2美元。

Mistral AI

23:57 · 2025年4月11日 · 周五

#开源 #翻译 #AI #PDF

📖 BabelDOC - 一款开源的 PDF 翻译工具

🌐 在线使用（每月1000 页免费）

BabelDOC 专注翻译科学论文，对数学公式、数据表格等复杂排版可以做到精确处理

☀️ 该项目由 funstory.ai 开发，该公司主要提供网文出海服务，所以在翻译长篇文档方面有一定的优势

📮投稿 📢频道 💬群聊 🔎索引

GitHub

GitHub - funstory-ai/BabelDOC: Yet Another Document Translator

Yet Another Document Translator. Contribute to funstory-ai/BabelDOC development by creating an account on GitHub.

开源翻译 AI PDF

22:00 · 2025年3月5日 · 周三

AI 实验 —— 我如何用科幻小说摆脱AI新闻焦虑

😵‍💫 这几年有一个很深刻的感受，那就是每日的 AI 产品新闻和模型上的迭代都多到让人麻木了 —— 仅过去一周，就有 Claude 3.7 Sonnet、GPT-4.5、Sesame AI 等重磅模型发布，更不用说数十个新工具和应用。跟不上似乎意味着在技术理解上落后，但追踪这些发展却又耗费大量精力和情绪资源。我实在不是很喜欢这种焦虑感，所以决定尝试来缓冲一下这个焦虑感

🗞 我的解决方案是：让 AI 整理每日的技术新闻，并将其转化为一篇短篇小说通过邮件发送给我。我使用 ChatGPT 搭配 Val Town 自动化流程，设计了一个特殊提示词："请将今天最重要的 3-5 条 AI 新闻转化为一篇 400 - 1200 字的短篇小说。你可以随机选择作家的文笔（如卡夫卡、村上春树或刘慈欣）、自由定义主角背景，以及选择时间点和时代背景。但必须确保故事情节准确反映新闻的核心内容和意义。"于是，这些小说像新鲜出炉的面包一样，每天早上 8 点准时出现在我的邮箱。

🔆 截图里是我这两天收到的短片小说。在经历了几天这场实验后，我发现它带给我了：

♦️︎ 增强参与度: 当信息以有趣的叙事形式呈现，而不是枯燥的标题或技术文章时，我更有可能吸收和场景化这个科技
♦️︎ 更好的记忆保留: 嵌入在故事中的信息往往比单独的事实更容易被记住
♦️︎ 模式识别: 我注意到这些故事中出现了反复的主题——技术公司之间的合作与竞争、开源与封闭战略的拉锯、以及人机交互的逐步融合。这些模式在传统新闻中往往被单一事件的报道所掩盖。
♦️︎ 情感背景: 故事提供了情感背景，有助于我理解技术发展对生活的影响

⚠️ 实验的局限: 当然，这种方法并非完美。有时 AI 会过度简化复杂的技术细节，或者将不同领域的新闻强行塞入同一个故事框架。我发现自己偶尔仍需阅读原始资料来获取更深入的理解。

🔦 如果你也想要试试看的话，可以在评论区留言。我计划建立一个小型社区，每周分享一篇最佳 AI 新闻小说，并探讨如何优化提示词以获得既准确又有趣的故事。你有没有特别喜欢的作家风格想在 AI 新闻小说中尝试？或者有什么特别想通过故事来理解的技术领域？

💡 随着信息过载成为常态，也许我们需要重新思考如何消化知识。在技术和人文的交叉点上，或许存在着更多创新的学习方式，等待我们去发现

📮 这篇文章是转发给你的吗？点击这里加入频道

Roller | AI AGENT 中文社区

14:31 · 2025年2月15日 · 周六

#AI #搜索引擎 #开源

🔎 Scira - 是一个简约的 AI 搜索引擎

🌐 在线体验

除了支持 AI 搜索，还有网页、网址搜索、天气查询、代码运行、地图定位、YouTube视频搜索、学术论文搜索、X.com帖子搜索、航班追踪、热门电影和电视剧查询等功能

可选 Grok、Claude、DeepSeek 等大模型，支持 Vercel 部署

📮投稿 📢频道 💬群聊 🔎索引

GitHub

GitHub - zaidmukaddam/scira: Scira (Formerly MiniPerplx) is a minimalistic AI-powered search engine that helps you find information…

Scira (Formerly MiniPerplx) is a minimalistic AI-powered search engine that helps you find information on the internet and cites it too. Powered by Vercel AI SDK! - zaidmukaddam/scira

AI 搜索引擎开源

22:48 · 2025年1月8日 · 周三

#AI #搜索引擎 #开源

🔎 MiniPerplx - 一个简单的 AI 搜索引擎

正如它的名字一般，是迷你版的 Perplexity。支持基于 Anthropic 的网络搜索，还可搜索 X、YouTube、学术论文等搜索

支持一键部署至 Vercel

📮投稿 📢频道 💬群聊 🔎索引

GitHub

GitHub - zaidmukaddam/scira: Scira (Formerly MiniPerplx) is a minimalistic AI-powered search engine that helps you find information…

Scira (Formerly MiniPerplx) is a minimalistic AI-powered search engine that helps you find information on the internet and cites it too. Powered by Vercel AI SDK! - zaidmukaddam/scira

AI 搜索引擎开源

22:06 · 2024年11月23日 · 周六

#AI #大模型 #聊天助手

⭐️ Nous Research 推出了 AI 聊天机器人「Nous Chat」

直达： hermes.nousresearch.com

Nous Chat 是一个基于Meta Llama 3.1微调而成的「Hermes 3-70B」模型，支持线程式对话（讨论的主题更加专注），

此 AI 旨在帮助用户组织思路、整理想法和项目，致力于“以人为本”的交互体验。支持中文，目前免费使用！

📮投稿 📢频道 💬群聊 🔎索引

NOUS RESEARCH

Introducing the Forge Reasoning API Beta and Nous Chat: An Evolution in LLM Inference - NOUS RESEARCH

The Forge Reasoning API contains some of our latest advancements in inference-time AI research, building on our journey from the original Hermes model.

AI 大模型聊天助手

23:35 · 2024年10月16日 · 周三

#AI 最近刷到一篇文章，是 Anthropic CEO Dario Amodei 写的：Machines of Loving Grace：How AI Could Transform the World for the Better。

Dario 在文中列出了五个 AI 在未来可能影响的领域，包含生物学、神经科学、经济、和平、工作等方面。AI 将会改进这些领域不容置疑，不过文章没有讨论一个问题，那就是人的影响，HN 上有个高赞评论：人工智能不是问题，我们才是——我不是很赞同他这种推向极端的二分法，但我和他的基本观点是相似的，那就是复杂的人性对 AI 的影响不可忽视。

前些天听电台：No.469 想过的人生，要马上开始过 —— 南京姑娘的光芒四射的生活态度，里面有句话是「技术是解决问题的，但问题的解决往往不需要高深的技术」，我深以为然。

通过观察那些政府工程、医院设备、公司招聘等，我们就会发现，不是说你的技术多么厉害，人多么聪明，很多时候背后可能就是交易的双方喝过一顿酒，抽过一支烟，人的关系在这里面发挥了更大的作用。

Darioamodei

Dario Amodei — Machines of Loving Grace

How AI Could Transform the World for the Better

22:01 · 2024年6月3日 · 周一

#开源 #音频处理 #AI

🔉 ChatTTS - 最近很火爆的文本转语音项目

视频演示

在线体验

开发者声称该项目突破了开源天花板！最大的模型使用了 10 万小时以上的中英文数据进行训练。在 HuggingFace 中开源的版本为 4 万小时训练且未 SFT 的版本（无版权风险）

ChatTTS 无障碍支持中英文，还支持一些细粒度控制，允许加入笑声、说话停顿、语气词等

它还可以复刻已经逝去的人的绝版声音，看演示视频不论是语调还是语气的变化，都挺接近本人的

在线体验一波真的非常好玩，再这么玩下去，播音员都要失业了

📮投稿 📢频道 💬群聊 🔎索引

GitHub

GitHub - 2noise/ChatTTS: A generative speech model for daily dialogue.

A generative speech model for daily dialogue. Contribute to 2noise/ChatTTS development by creating an account on GitHub.

开源音频处理 AI

22:46 · 2024年5月23日 · 周四

OpenAI 与新闻集团达成协议，获得《华尔街日报》、《纽约邮报》等多家媒体的内容授权

OpenAI 已经与News Corp（新闻集团）达成了一项协议，新闻集团旗下拥有《华尔街日报》、《纽约邮报》、《每日电讯报》等多家媒体。据《华尔街日报》报道，OpenAI 与新闻集团的这项协议在未来五年内的价值可能超过 2.5 亿美元，形式为现金及使用 OpenAI 技术的信用额度。

这份为期多年的协议授予 OpenAI 访问新闻集团出版物的现有和存档文章的权限，用于 AI 训练和回答用户问题。

这是 OpenAI 与包括美联社、金融时报、《人物》杂志出版商 Dotdash Meredith 以及 Politico 的所有者 Axel Springer 在内的多家主要媒体公司和机构达成的最新一系列授权协议。

与此同时，一些媒体机构如《纽约时报》、《纽约每日新闻》、《芝加哥论坛报》和《The Intercept》则选择对 OpenAI 提起诉讼。他们指控 OpenAI 和微软通过使用他们的作品来训练 AI 模型，侵犯了版权。

🗒 标签: #OpenAI #AI #版权
📢 频道: @GodlyNews1
🤖 投稿: @GodlyNewsBot

The Verge

OpenAI’s News Corp deal licenses content from WSJ, New York Post, and more

OpenAI is partnering with more media companies.

OpenAI AI 版权

22:13 · 2024年5月22日 · 周三

Windows 现在拥有了 AI 驱动的复制粘贴功能

微软正在为 Windows 11 的 PowerToys 添加一个新的高级粘贴功能，这个功能可以利用人工智能技术即时转换你剪贴板上的内容。这个新功能可以帮助用户通过诸如复制一种语言的代码并粘贴成另一种语言等操作来加速他们的工作流程。

该功能需要花费 OpenAI API 的credits

高级粘贴功能已包含在 PowerToys 0.81 版本中，启用后，可以通过特定的快捷键命令激活：Windows 键 + Shift + V。这将打开一个高级粘贴文本窗口，提供包括纯文本、Markdown 和 JSON 在内的粘贴转换选项。

如果你在高级粘贴设置中启用了 AI 粘贴功能，你还会看到一个 OpenAI 提示框，在这里你可以输入你想要的转换内容——无论是摘要文本、翻译、生成代码、从随意风格到专业风格的改写、Yoda 语法，或者任何你能想到的请求。

🗒 标签: #微软 #AI
📢 频道: @GodlyNews1
🤖 投稿: @GodlyNewsBot

The Verge

Windows now has AI-powered copy and paste

It’s OpenAI-enhanced pasting in Windows 11.

微软 AI

21:54 · 2024年4月26日 · 周五

DeepL 推出 Write Pro AI 写作助手，基于自研大语言模型

DeepL 近日宣布推出 DeepL Write Pro 人工智能写作助手。该助手是首个由 DeepL 自研大语言模型提供支持的服务。

DeepL 表示，不同于传统生成式人工智能工具，也不同于基于规则的语法纠正工具，DeepL Write Pro 在用户起草过程中进行创意辅助，通过人工智能实时提供选词、措辞、风格和语气建议，以提升文本质量。

DeepL 还宣称，无论用户的语言熟练程度如何，这一工具都能找到适合目标场景的用词。

此外，DeepL Write Pro 也面向商用场景设计，为企业用户提供包括 TLS 加密和文本删除在内的数据安全功能。

DeepL Write Pro 目前支持英语和德语，未来将扩展到更多语言。该工具可在 Web 端、应用程序、浏览器插件中使用，也已集成到 Microsoft 365 和 Google Workspace 办公套件中。

根据德媒 ComputerBase 的消息，该订阅服务定价每月 10 欧元。

🗒 标签: #DeepL #AI
📢 频道: @GodlyNews1
🤖 投稿: @GodlyNewsBot

Ithome

DeepL 推出 Write Pro 人工智能写作助手，基于自研大语言模型 - IT之家

该工具可在用户起草的过程中通过人工智能实时提供选词、措辞、风格和语气建议，以提升文本质量。

DeepL AI

23:43 · 2024年1月30日 · 周二

Meta的免费编程工具Code Llama AI缩小了与GPT-4的差距

Meta最新更新了它的代码生成人工智能模型Code Llama 70B，这是迄今为止“最大且表现最好的模型”。Code Llama工具在八月份推出，无论是研究还是商业用途都是免费的。根据Meta的AI博客上的一篇文章，Code Llama 70B能够处理比以前版本更多的查询，这意味着开发者在编程时可以给它输入更多的提示，而且它的准确性可以更高。

Code Llama 70B在HumanEval基准测试中的准确率达到了53%，表现比GPT-3.5的48.1%要好，而且接近OpenAI论文报告的GPT-4的67%的成绩。

Code Llama是基于Llama 2构建的，它能帮助开发者根据提示生成代码串，并且调试人类编写的代码。去年秋天，Meta同时推出了另外两款Code Llama工具，分别是Code Llama - Python和Code Llama - Instruct，这两款工具专注于特定的编程语言。

Code Llama70B现在有三个版本的代码生成器可以使用，而且无论是研究还是商业用途都是免费的。这个大型模型是在1TB的代码和与代码相关的数据上进行训练的。它托管在代码库Hugging Face上，Hugging Face提供了GPU资源来运行人工智能模型。

Meta表示，它们的大型模型，34B和70B，“能够带来最佳效果，并提供更好的编码帮助。”

去年，其他人工智能开发者也发布了代码生成器。亚马逊的CodeWhisperer在四月份推出，而微软则利用OpenAI的模型推出了GitHub Copilot。

🗒 标签: #Meta #AI #Llama
📢 频道: @GodlyNews1
🤖 投稿: @GodlyNewsBot

Meta AI Llama