最近 DeepSeek 俨然填满了我身边的大部分科技类信源,在狂欢之后(之中?),想综合最近看到的信息以及实际使用体验,总结我的一些想法,可能不成熟。
@atashare
1. 首先,DeepSeek 在国内外产生巨大反响,我觉得主要是它暂时打破了国外头部厂商在这几年有意无意培养的一个认知:搞 AI 会越来越烧钱。
以 GPT 系列为例,从传统的文生文模型 GPT 3.5,到多模态模型 GPT 4(o),再到现在的思维链模型 o1 和实时语音模型 GPT 4o Realtime,API 的价格目前遵循着“推出新品(贵) -> 优化性能或者推出小模型(降价) -> 推出新品(贵)”的周期。而网页版的 ChatGPT 会员价格从 Plus ($20) 涨到 Pro ($200) 甚至传言的 $2000,Sam Altman 还频频表示 OpenAI 一直在亏损,都传递出“大模型越来越烧钱”的信息。
于是 DeepSeek V3 和 R1 发布后,美国研究员们发现 DeepSeek 居然只用 GPT-4o 的 1/10 或者更低的成本,就做出了在一些方面追平甚至超越 4o 和 o1 的模型,560 万美元的成本比 Meta 一些高管的工资还低。人们自然而然地产生了问题:为什么我们之前要花那么多钱?怎么和投资人交代?所以微软等机构开始质疑,试图找 DeepSeek 的漏洞。同时,很多机构也在复现和部署(例如微软 Azure 云就搞了推理服务),尝试趁着 DeepSeek 官方服务超载的时候分一杯羹。
但长期来看,AI 烧钱的主旋律还会继续。一方面,DeepSeek 是在国内被制裁的环境下,用有限的硬件一点点抠出来的性能(比如说,他们用英伟达的 PTX 语言做了很底层的优化);另一方面,探索新技术也很费资源,如果手里的资源不够,甚至连技术的验证和迭代都跑不快。DeepSeek 主要证明了现有硬件性能还有挖掘空间,并且不但 N 卡可以流畅地部署大模型,A 卡和华为昇腾等国产显卡也能(前者 DeepSeek V3 已经首发支持,后者硅基流动已经和华为云合作实现)。“低成本高效率“和“高成本高效果”这两条路本质也不冲突。
> 这里补充一下,国外推出的不少推理服务主打的其实是隐私与合规性。因为 DeepSeek 官方是会用对话记录改进模型的,并且作为一个 🇨🇳 产品,很多老外天然排斥。如果把模型部署在海外,然后再特意备注“我们不收集对话记录”,不就成为卖点了?
> 另一方面,微软一边质疑一边火速推出服务,也能看出微软作为巨型企业,不同部门有不同的行为逻辑,政治和商业行为不冲突。
2. DeepSeek 的局限性。咱程序员当然不能像自媒体那么沸腾。DeepSeek V3 和 R1 当然也有缺陷:
- 它俩是专攻文生文方向,是将有限的资源集中到了一个点上。这两个模型都不支持多模态,官网虽然支持图片输入,但本质上使用了 OCR。不过反过来说,“专心做好一件事”也有可能是它出圈的一个因素。
- 目前在工程化产品中的帮助有限。像豆包、通义千问这些产品直接从用户接收输入,大模型直接输出给用户,没有固定的限制;而在其它一些产品里(比如说面向程序员的编程工具),大模型只是产品功能的一个环节,需要稳定、格式化的输入输出。V3 和 R1 目前对 tool call 的支持都不算好,在编程这个垂直领域里,prompt 的遵循能力和效果比不上 Claude 3.5 Sonnet 等广受好评的模型。
- 最近的一个观点“在 R1 上可以抛弃 prompt 工程”,并不认同。在简单问题上确实可以简单提问,让 R1 自己推理完善计划;但复杂场景里这么干可能让它填充的细节变得脱离实际。更何况,即使给了充足的指示,它的效果有时候也一般(可能是特定场景的训练数据不足)。
> 评论区的图片对比了 DeepSeek V3(左)和 Claude 3.5 Sonnet(右)在 AI 代码编辑器中的表现。R1 的表现和 V3 类似。
3. 宏观总结一下 V3 和 R1 的意义
- 在现有的技术大框架下,提供了一种高效率的新思路,并且透明开放。
- 在大模型领域培养了好的人才
- 给全国人民拜了个好年
- 让 AI 进一步靠近了普通人,强化了“中国的 AI 原来也这么好用,我们的模型有能力走向全球并被广泛认可”的认知。在现在这个节骨眼上,某种程度上来说,它的存在本身已经能成为历史的一个里程碑。
> 硅基流动 CEO——“这个想法有没有问题:这可能是一个历史事件,参与就是赢,赚不赚钱已经不重要了”
@atashare