来自极客公园,专注与科技创业者聊「真问题」。

「RL 之父」Rich Sutton 在 2019 年发表的经典短文 The Bitter Lesson《苦涩的教训》广为人知,并且时不时被人提起。

「70 年的 AI 研究历史告诉我们一个最重要的道理:依靠纯粹算力的通用方法,最终总能以压倒性优势胜出。」

如今,似乎可以重新再聊下这个话题。

未来 AI 智能体的发展方向还得是模型本身,而不是工作流(Work Flow)。

以及最近 Gemini 和 4o 更新的图片功能,可能直接取代了很多图片工作流——用自然语言对话完成现在复杂的 SD 图像生成工作流。

模型的通用能力,正在取代现在那些复杂的 Workflow。

今天编译的这篇文章,是作者 Lukas Petersson 听完 YC 100 多个项目路演后写下了一个有趣的观察:《苦涩的教训》中所写的 AI 研究历史似乎正在 AI 创业界重演。

作者介绍:Lukas Petersson,Andon Labs 的 CEO 兼联合创始人,专注 AI 安全评估和大语言模型研究。此前,他曾在 Google 实习,曾在 Disney Research 开发病毒式机器人,还曾参与探空火箭发射项目,担任项目主要负责人。

01 历史重演:AI 创业在重复这个教训

太长不看版:

  • 历史上,通用方法始终在 AI 领域占主导。
  • 如今,AI应用领域的创始人们正在重复 AI 研究人员过去犯过的错误。
  • 更强大的 AI 模型将催生更多通用 AI应用,同时也会削弱 AI 模型「套壳」软件的附加价值。

AI 技术的飞速发展带来了一波又一波新产品。在 YC 校友 Demo Day 上,我见证了 100 多个创业项目的路演。这些项目都有一个共同点:它们瞄准的都是简单问题,加了各种限制的 AI 就能解决。

但 AI 真正的价值在于它能灵活处理各类问题。给 AI 更多自由度通常能带来更好的效果,但现阶段的 AI 模型还不够稳定可靠,所以还无法大规模开发这样的产品。

这种情况在 AI 发展史上反复出现过,每次技术突破的路径都惊人地相似。如果创业者们不了解这段历史教训,恐怕要为这些经验「交些学费」。

2019 年,AI 研究泰斗 Richard Sutton 在他那篇著名的《苦涩的教训》开篇提到:

「70 年的 AI 研究历史告诉我们一个最重要的道理:依靠纯粹算力的通用方法,最终总能以压倒性优势胜出。」

那些精心设计的「专家系统」,最终都被纯靠算力支撑的系统打得落花流水。我们在语音识别、计算机象棋和计算机视觉中都看到了这种模式。这篇文章标题里的「苦涩」二字,正是来自这个在 AI 圈一演再演的剧情——从语音识别到计算机象棋,再到计算机视觉,无一例外。

如果 Sutton 今天重写《苦涩的教训》,他一定会把最近大火的生成式 AI 也加入这份「打脸清单」,提醒我们:这条铁律还没失效。

同在 AI 领域,我们似乎还没有真正吸取教训,因为我们仍在重复同样的错误...... 我们必须接受这个苦涩的教训:在 AI 系统中,强行植入我们认为的思维方式,从长远来看是行不通的。
这个「苦涩的教训」源于以下观察:

  1. AI 研究者总想把人类的知识经验塞进 AI
  2. 这招短期确实管用,还能让研究者有成就感
  3. 但迟早会遇到瓶颈,甚至阻碍 AI 的进步
  4. 真正的突破往往出人意料——就是简单地加大算力

站在 AI 研究者的角度,我们需要在总结教训的过程中明确了什么是「更好」的。对于 AI 任务,这很好量化——下象棋就看赢棋概率,语音识别就看准确率。对于本文讨论的 AI应用产品,「更好」不仅要看技术表现,还要考虑产品性能和市场认可度。

从产品性能维度来看,即产品能在多大程度上取代人类的工作,性能越强,就能处理越复杂的任务,创造的价值自然也就越大。

图 1. 展示了不同类型的 AI 产品,本文主要讨论应用层

AI 产品通常是给 AI 模型加一层软件包装。因此,要提升产品性能,有两条路径:

  1. 工程升级:在软件层面利用领域知识设置约束规则
  2. 模型升级:等待 AI 实验室发布更强大的模型

这两条路看似都可行,但在此有个重要洞察:模型能力越强,工程优化的边际效益就越低。

现阶段,软件端的设计确实能提升产品表现,但这只是因为当前模型还不够完善。随着模型变得更可靠,只需要将模型接入软件就能解决大多数问题了——不需要复杂的的工程。

图 2. 投入工程的价值会随着投入增加和更强大模型的出现而递减

上图展示了一个趋势:随着 AI 模型的进步,优化工程带来的价值将逐渐减少。虽然当前的模型还有明显不足,企业仍能通过工程投入获得可观回报。

这一点在 YC 校友 Demo Day 上表现得很明显。创业公司主要分为两类:第一类是已经实现规模化的产品,专注解决简单问题,但数量还不多;第二类则瞄准了相对复杂的问题。后者目前发展势头不错,因为他们的概念验证证明:只要在工程上下足功夫,就能达到预期目标。

但这些公司面临一个关键问题:下一个模型发布会不会让所有工程上的都成为无用功,摧毁他们的竞争优势?OpenAI 的 o1 模型发布就很好地说明了这个风险。

我和很多 AI应用层的创业者聊过,他们都很担心,因为他们投入了大量精力来完善提示词。有了 o1 后,提示词工程的重要性就大大降低了。

从本质上讲,这种工程的目的是为了让 AI 少犯错误。通过观察众多产品,可以概括为两类约束:

  • 专业性:衡量产品的聚焦程度。垂直型产品专注于解决特定领域的问题,配备了专门的软件包装;而水平型产品则更通用,能处理多种不同类型的任务。
  • 自主性:衡量 AI 的独立决策能力。在此借鉴一下 Anthropic 的分类:
  • 工作流:AI 按预设路径运行,使用固定的工具和流程
  • 智能体:AI 可以自主选择工具和方法,灵活决策如何完成任务

这就规定了一个 AI 产品的分类框架:

表 1. 对知名 AI 产品的分类。需要注意的是,ChatGPT 可能每次对话都会遵循预先设定的代码路径,因此更像工作流而非智能体

让我们以商业分析师制作路演 PPT 为例,看看每类产品如何实现这个任务:

  • 垂类工作流:它按固定步骤执行任务,比如,先用 RAG 查询公司数据库,小型 LLM 做总结,大型 LLM 提取关键数据并计算,检查数据合理性,最后生成 PPT。每次都严格遵循这个流程。
  • 垂类智能体:LLM 能自主决策,循环工作,用上一步的结果指导下一步行动,虽然可用工具相同,但由 AI 自己决定何时使用。直到达到质量标准才停止。
  • 通用工作流:像 ChatGPT 这样的通用工具只能完成部分任务,既不够专业也不够自主,无法完整处理整个工作流。
  • 通用智能体:例如 Claude computer-use,能像人一样操作常规办公软件。分析师只需用自然语言下达指令,它就能根据实际情况灵活调整工作方法。

Demo Day 上几乎所有产品都属于垂直工作流。这很好理解——当前的 AI 模型还不够成熟,只能用这种方式才能达到可用水平。结果就是,即使是过于复杂的问题,创业者们也不得不硬塞进这个框架,因为这是目前唯一能让产品勉强可用的方法。

虽然通过工程优化可以提升这些产品,但提升空间有限。对于当前模型难以处理的问题,与其投入大量工程资源,不如等待更强大的模型出现——到时只需很少的工程就能解决问题。

就像 Leopold Aschenbrenner 在《Situational Awareness》中说的:「完善这些繁琐的工程,可能比等待更强大的模型还要浪费时间。」

这不禁让人联想起那个「苦涩的教训」:AI 研究者反复尝试用工程手段提升性能,最终却总是被简单堆算力的通用方案超越。今天的 AI 产品开发似乎正在重蹈覆辙。

把表 1 的内容和《苦涩的教训》联系起来之后,这样能更清楚地看到其中的关联:

《苦涩的教训》的观察

自主性

专业性

  1. AI 研究者总想把人类的知识经验塞进 AI

开发者发现自主智能体不够稳定,只好硬编码固定流程

通用文档分析系统不可靠,于是被迫缩小到特定领域(如仅分析财务报表,硬编码具体指标)

  1. 这招短期管用,还能让研究者有成就感

自主性受限提高了系统可靠性

专业化提升了准确率,因为模型只需要处理固定场景中有限的文档和指标

  1. 但迟早会遇到瓶颈,甚至阻碍 AI 的进步

固定的工作流难以应对新情况

专业化系统难以扩展,每个新任务都需要重建系统

  1. 真正的突破往往来自于简单地加大算力

新模型能自主找到解决方案,动态调整策略

新模型的通用理解能力让专业限制变得多余,无需依赖专门化系统

对于那些解决路径不清晰的问题,产品如果有更高的自主性,通常表现会更好。类似的,在面对大规模、复杂输入时,功能不那么具体的产品反而表现更好。

总而言之,我的观点是:试图用软件工程来弥补当前 AI 模型的不足,似乎是一场注定失败的战斗,尤其是考虑到现在 AI 技术发展的惊人速度

正如 YC 合伙人 Jarred 在 Lightcone 播客中说的:「第一波基于固定流程的 AI应用,大多被新一代 GPT 模型淹没了。」

Sam Altman 常说,要做那种期待而不是害怕新模型发布的创业公司。我遇到的很多 AI 创业者对新模型都很兴奋,但从他们公司的利益看,这种兴奋可能不太合适。

或许他们没有意识到图 2 表达的观点:更强的模型其实可能会让你的竞争优势变小,而不是变大。这个观点主要是从产品性能的角度来说的——关键是要做出能更高效解决复杂问题的产品。

从统计学角度理解《苦涩的教训》

让我们用简单的统计学来理解这个道理。在做模型时,通常要面临一个选择:要么做一个规则很死板的模型(高偏差),要么做一个灵活但不太稳定的模型(高方差)。《苦涩的教训》告诉我们:选灵活的。

究其原因,因为只要有足够的算力和数据,灵活的模型最终也能变得很稳定。就像打篮球,就算姿势不标准,练得多了也能投准。但反过来就不行了,太死板的方法会被自己的规则限制住。

这跟 AI 产品是一个道理。做垂直领域的工具,加各种限制,就像给 AI 加规则,现在看起来更稳定,但限制了它的潜力。相反,让 AI 更自由一点虽然现在看着不太靠谱,但随着模型越来越强,它反而能找到更好的办法。历史一再证明,跟灵活性对着干是不明智的。

两种做 AI 的方法

图 3:对比了两种方法。传统机器学习需要人工来告诉机器「什么是重要的」,深度学习则能自己学会

传统机器学习需要人来决定什么信息重要。比如给一张图片,你得手动找出有用的特征,数一数有多少个圆形,测量一下各种尺寸等等。但深度学习不同,它能自己学会找重要的东西。

图 4:比如自动驾驶。系统要识别和跟踪车辆、行人、车道线等具体物体。这就是分解复杂问题的传统方法。

以自动驾驶来说,你有两种方式:

  1. 老方法:把车看到的东西分解:前面的车在哪,车道线在哪,那个人跑多快?
  2. 新方法:直接把视频扔给 AI,让它自己学会开车。

老方法看着更靠谱,更有把握。所以早期的 AI 都这么干。但正如 George Hotz 所说:「AI 的历史告诉我们,老方法最后总会被新方法打败。」

DeepMind 研究员 Sholto Douglas:就像其他所有深度学习系统一样,押注端到端就对了

接下来,在第二章中,我们会聊聊另一个话题:市场接受度。毕竟,只有好性能并不一定能在市场上成功。

02 垂直 AI 占不到任何便宜

太长不看版:

  • 通用 AI 最终会在大多数垂直领域超越垂直 AI。虽然垂直 AI 总能抢跑,但谁能笑到最后呢?
  • 用户迁移成本几乎为零。通用 AI 就像远程同事,插个 API 就能上岗,接入过程像新员工入职一样简单。
  • 垂直 AI 也很难在其他方面建立护城河。在 Helmer 的七大竞争优势中,垂直 AI 没占到任何便宜。
  • 在极少数情况下,某个垂直 AI 既独家又是垂直领域的刚需。但这种情况很少见。很多自以为有数据壁垒的公司,其实都误解了需求。要么数据根本不稀缺,要么不是真正的刚需。

注:本文中 Horizontal AI 暂译为通用 AI,相对于垂直场景的 AI。

AI 的历史告诉我们一个规律:那些试图通过专业领域知识弥补模型局限的做法,最终会被依靠算力的方法取代。第一章我们也看到,很多公司做的是受限的垂直 AI 产品,而不是更灵活、能随着模型进步的产品。

但只有好性能并不意味着能占领市场。本章通过 Hamilton Helmer 的《七大竞争优势》框架,分析了垂直产品和通用产品在市场上的接受度。

我们发现,做垂直工作流的产品,一旦有了通用替代品,就很难维持市场地位,因为缺乏战略优势。不过,有个关键例外,给 AI 创业者提供了一个明确的方向。

正如第一章提到的,使用更强大且限制更少的模型的产品,最终会表现得更好。然而,目前基于现有模型的产品(通过加入人为的偏差减少错误)可能会更早进入市场。

本文讨论的重点是,当我们进入图 1 中的绿色区域后,AI 垂直领域是否还能在更强大的通用 AI 产品出现后保持市场份额。

图 5:垂直 AI 和通用 AI 产品随着时间变化的表现对比(简化版),分为三个阶段:传统软件主导期→垂直 AI 窗口期→通用 AI 替代期

大部分 AI 能解决的问题其实都很复杂,垂直 AI 很难做到理想效果,就像图 5 那样。很多难题今天没人去解决,这些问题虽然占了大部分潜在市场,但在现有 AI应用中还只是少数。

图 6,垂直 AI 产品永远达不到足够的性能水平,而通用 AI 通过改进模型能得到更好的表现

对于图 5 里提到的那些简单的、现在就能找到方法解决的问题,问题就变成了:当更好的解决方案出现时,垂直 AI 还能保持领先吗?

简单来说,垂直 AI 很容易辨认,因为现在很多 AI 创业公司都在做。第一章已经讲过,垂直 AI 限制固定的工作流来提高可靠性,而通用 AI 就像远程同事。

让我们想象一个能在后台用传统软件完成任务的 ChatGPT,接入的过程就像给新员工入职一样——给它电脑和账号权限,然后用自然语言给它指令。你不需要给它所有的数据源,因为它可以自己找到需要的数据。此外,我们假设这个通用 AI 是由 OpenAI、Anthropic 这样的 AI 实验室开发的。第四章我们会讨论为什么这种情况很可能发生。

值得注意的是,虽然我把通用 AI 比作一位「智能同事」,但它不需要真的像人类一样聪明,这不是什么 ASI 一样的超级智能。它只要足够聪明,能在找不到现成的工具时自己写代码就行了。我认为这种情况很快就能实现,因为 AI 在编程这块进展最大。

当然,也有关于这是否会实现,以及什么时候实现的问题,第三章我们会讨论。不过我碰到过不少创始人相信这会发生,而且他们依然认为自己的垂直 AI 能够在这种竞争中存活下来。

我自己也曾在这场竞争中失败过一次。2022 年 11 月,OpenAI 发布了 ChatGPT,我想用它来帮我解读科学论文,但它没办法处理长输入,当时长输入需要更多算力,OpenAI 为了节省成本做了限制。当 GPT-3.5 的 API 发布时,我开发了一个叫 AcademicGPT 的垂直 AI 产品,分解任务,由多个 API 调用,来解决这个问题,吸引了一些付费用户。然而,支持长输入的 GPT-4 一发布,我的东西就没用了。GPT-4 这种更智能、偏见更少的通用 AI应用比我精心做出来的、有偏见的解决方案好得多。

我不是一个人。YC 的合伙人 Jared 在 Lightcone 播客中说:「第一波 LLM 应用基本都被下一波 GPT 打败了。」当然,那时的产品远没有今天的垂直 AI 复杂。AcademicGPT 只解决了一个输入长度的问题,但那些复杂的垂直 AI 产品解决了多个问题。这也许能让它们活得更久,但最终,AI 模型会直接解决这些问题,就像 GPT-4 通过扩展上下文窗口解决了输入长度问题一样。就像第一章中说的,随着模型变强,它们最终会和一个更优秀的通用方案竞争。

Hamilton Helmer 的《七大竞争优势》给我们提供了一个框架,帮我们分析这些产品是否能在竞争中存活下来。这个框架提到了七种长期有效的竞争优势:规模经济、网络效应、反向定位、转换成本、品牌、封闭资源和过程能力。

转换成本(Switching Cost)

客户的留存往往是因为换服务商带来的损失和麻烦太多,所以就算有替代方案,客户还是更倾向于继续用现有的服务。

集成/用户体验

用户可能已经习惯了垂直 AI 的界面,但这不是个阻碍,因为接入通用 AI 就像给新员工入职一样,过程很简单。就像是 Leopold Aschenbrenner 说的一样:「接入远程工作者太简单了——把他们加入进来,自动化所有可以远程做的工作就行了。」

而且,这个远程同事将会是你已经熟悉的通用 AI 产品。很多人已经习惯了 ChatGPT 的界面,而且这个通用 AI 还能共享任务之间的上下文。

自然语言对话是最适合的界面,因为它是我们日常沟通的方式。不过,有些时候,计算机界面可能更高效。像 Excel 这样的传统软件在这些情况下仍然能和通用 AI 配合使用。但我认为,可能会有一些细分领域,既不适合传统软件,也不适合自然语言对话。如果垂直 AI 在这些领域能创新出合适的界面,就会有较高的转换成本。不过,它们的优势并不完全是 AI 技术相关的;通用 AI 也能使用的非 AI 版本同样能带来价值。

销售

如果通用产品是基于已有产品发展而来的,那么销售就不是个问题。许多公司已经在用 ChatGPT,并且未来会有更多企业加入。

价格

目前我们接触到的最接近通用 AI 的产品是 Claude Computer-use,它因为频繁调用大型 LLM 和高分辨率图像,运行成本非常高。AI 垂直产品通常通过限制输入,只保留他们认为相关的内容,来尽量降低成本。但模型运行成本已经在大幅下降,我预计这种趋势会继续下去。而且,拥有一个横跨多个垂直领域的单一产品,而不是买很多个不同的产品,将会大大节省成本。

反向定位(Counter Positioning)

这是一种新的商业方法,让公司在市场中占据一个竞争者们很难挑战的独特的位置。传统大公司很难或者根本不可能复制。

乍一看,垂直产品有反向定位的优势,因为它们能为特定客户定制解决方案。但这个优势只有在你的产品确实比竞争对手更好的情况下才有效。但在我们讨论的案例和场景中,垂直 AI 并没有做到这一点。更多内容参见第一章。

事实上,通用 AI 产品在反向定位上占了便宜。它们随着每次模型的进步自然地扩展,而垂直产品要么保持现有的限制,性能逐渐落后,要么接受更强的模型,失去差异化优势。

规模经济(Scale Economy)

随着业务扩大,单位成本逐渐降低,让公司变得越来越高效。

通用和垂直这两种方案都能享受规模经济带来的好处。

垂直产品可以像传统 SaaS 一样高效扩展,但通用 AI 产品可以更快地降低价格,因为它们的研发成本可以分摊到多个行业的用户,这是它们的一个额外的优势。

网络效应(Network Economy)

随着客户群的扩大,每个用户得到的产品或服务的价值也随之提高。每新增一个用户,就能为其他所有用户创造更多的价值,其他用户的体验也会提升,形成一个自我强化的增长循环。

垂直和通用产品都能从网络效应中受益,但通用 AI 有天然的优势,它们能够利用更多的用户数据训练更强的模型,形成更广泛的反馈机制,提升所有场景的效果。

品牌力(Brand Power)

品牌力来自公司过去的表现和声誉,是一种长久的价值感知。强大的品牌力能提升客户忠诚度,允许公司溢价定价。

但对于目前初创公司的规模来说,品牌力通常不可能实现。像 OpenAI 和 Google 可能有,但大多数做垂直 AI 的初创公司是没有的。就像图 3。

图 7,业务增长的三个阶段及每个阶段最常见的竞争优势

流程优势(Process Power)

流程优势是指公司内部经过时间积累的高效流程,通常需要竞争对手投入大量的时间和精力才能赶上。

同样,当前这种规模的初创公司也很难达到这种流程优势。参见图7。

垄断资源(Cornered Resource)  

指的是某些公司能够在特别有利的条件下,独占使用一些珍贵的资源,从而获得竞争优势。这些资源可能是独家权利、专利或数据。

到目前为止,还没有任何力量能打破通用 AI 与垂直 AI 的竞争。但垄断资源会打破这种局面。这样的资源非常稀有,它必须是完全独占的,任何价格都买不到。而且,它必须是垂直 AI 成功不可或缺的资源,没有它,垂直产品就不能成功。

能够找到这种资源的垂直 AI 非常少。我认为很多 AI 垂直产品误以为它们通过数据拥有这样的优势,但实际上并没有。这些数据要么不必要,要么并不独占。不过,也有一些垂直 AI 产品会找到这种资源。例如,它们可能有一个只有在特定事件中才能收集的数据集。只要它们能控制这些数据,通用 AI 的优势就没办法超越它们。

总结来说,垂直 AI 产品早期会占领市场,但在面对通用 AI 更强大的解决方案时,几乎所有垂直 AI 都很难找到竞争壁垒。通过分析 Helmer 的七大竞争优势,我们发现垄断资源可能是垂直 AI 唯一的护城河。这意味着 AI应用层的创业者应该更多地集中精力获取这种资源,而不是做其他事情,这一点我们将在第四章进一步讨论。

对于那些没有建立护城河的垂直领域,一旦通用解决方案变得有竞争力,就会被超越。我的 AcademicGPT 就经历过这样的情况,它解决了一个当时的通用 AI 解决不了的问题,但很快就失效了。更复杂的垂直 AI 产品,虽然能解决多个问题,最终也会面临同样的命运,只是稍微晚一些。

不过,真正的问题是,大部分人认为通用 AI 产品作为「远程同事」能够在短时间内被广泛应用。这为我们引入第三章的论点,深入探讨 AI应用层的未来发展,预测可能会遇到的具体障碍,包括模型进展停滞、监管难题、信任问题和经济壁垒。

03 关于AI应用的6个预言,5个障碍

未来几年,AI应用领域将对初创公司来说非常艰难?

这篇文章我在 2024 年 12 月写的。刚准备发布时,Anthropic 的 CEO 刚好在采访中谈到他们的「虚拟协作者」(virtual collaborator)计划,正好解释了我所说的「通用 AI 产品」。2025 年 1 月,OpenAI 也刚刚发布他们的 Operator。

预测未来往往难以准确,但我们还是来看看。前两章我分析了为什么垂直 AI应用面临困境:它们在性能上无法与更通用的解决方案竞争,而且当通用产品变得有竞争力时,垂直 AI 往往没有有效的护城河。结果可能是,每个垂直领域都会有一个时刻,市场会从垂直 AI 转向通用 AI。

最关键的问题是:这会发生在什么时候?如果需要十年,那现在做垂直应用也许还能有意义。但如果明年就会发生,那就完全是另一回事了。

本章会分享我对未来几年 AI应用领域的预测,特别是关于关键转型时机的具体预测。第四章会探讨这对 AI 创业者的意义。

垂直到通用 AI 的转变不会在所有垂直领域同时发生。我认为这些转变会随着每次模型发布分批出现。在一些领域,这个时刻可能要等很久,但今天大多数做垂直 AI 的公司都很简单,我认为这些领域会在接近的时间内发生变化,到 2027 年,垂直 AI 仍然能持续发展的领域会非常少。

图 8 总结了我对应用采纳变化的看法,作为文章的目录参考。这里的「采纳(adoption)」是指,为用户在尝试解决新问题或改变现有解决方案时,所选择的产品或方式。

需要注意的是,这里有几个关键点:

  • 这不是市场份额,而是解决方案的选择,现有交易可能滞后。
  • 这是相对的。随着 AI 解锁更多用例,市场规模会变大,但这个变化没在图中展示。
  • 这也不是衡量潜在价值,而是用户选择解决方案的时间点,不考虑未来可能的改进。

举个例子,从 A 到 B 的转变,意味着一个以前偏好方案 A 的用户,现在会选择方案 B。

「垂直/通用」和「工作流/智能体」是两种不同类型的 AI 产品定义,具体细节见第一章。为了简化,图表把通用智能体和工作流归为同一类,因为同一家公司可能同时开发这两种产品。例如,ChatGPT 可能会保持工作流基础,同时加入更多智能体功能。

图 8: 预计 2022 至 2027 年间解决方案选择模式的变化。图表展示了用户如何在传统解决方案、通用 AI 产品(包括工作流和智能体)以及垂直 AI 产品之间切换。每个流的宽度表示选择的强度,衡量用户选择新方案或转向其他现有方案的趋势

关于未来几年 AI应用的 6 个预言

过去

ChatGPT 发布前,传统软件主导市场。

ChatGPT 发布,第一个重要的通用 AI 产品。

GPT-3.5 API 发布,第一波垂直 AI 产品。

今年

  1. 2025 年将是一个关键的转折点,模型会变得足够可靠,能用于实际的 Agent 应用。到现在为止,智能体大多还只能用于研究项目或概念验证,虽然它们的初始应用规模不大,但潜力会越来越明显。增长将会来自两方面:垂直产品会把它们的工作流升级为智能体,新的应用会以工作流做不到的方式,取代传统软件。
  2. 虽然智能体开始崭露头角,但垂直 AI 将在 2025 年之前依然占主导。因为有两个大的转换成本:用户不愿意改变已经在用的工具,开发人员不愿意放弃他们过去几年的工程投入。早期市场中,垂直产品获得的市场地位有强大的惯性。
  3. 主要的通用 AI 产品(如 ChatGPT、Claude 和 Gemini)会增加更多功能,扩展它们在更多垂直领域的应用。这个趋势已经开始了。比如,ChatGPT 现在可以和你电脑上的其他桌面应用集成。随着模型进步,这些公司可以用更少的工程投入实现这些功能。随着这些通用产品的提升,垂直 AI 产品将会越来越难销售出去,因为用户会意识到,自己正在用的通用 AI 产品就能解决他们的需求。

(近期的)未来

  1. 通用 AI 智能体与人类同事的差距会迅速变小。虽然它们还不完全属于专家级别,但已经足够智能,能可靠地完成大部分从前人类在传统软件里处理的工作。许多人仍然能保持工作,但垂直 AI 解决方案会逐渐过时。下面是我预期的一些具体变化:

  a. 消费者会常常用通用智能体处理复杂任务,比如报税、求职和非休闲购物。

  b. 公司将大幅减少低层次的招聘,部分公司可能会大规模裁员。但这一转变的速度会比预期慢。

  c. 我们将会看到第一个单人独角兽公司。

  1. 传统软件将继续通过为智能体提供接口来保有市场价值。尽管智能体理论上能从头创建需要的软件,但考虑到计算成本,现有软件平台更实用。传统软件并不是免费的,但我认为传统的通用软件更有可能活下来,因为智能体虽然不免费,但比人类便宜得多。你可以在 Excel 做 CRM,但购买专业的 CRM 系统更合算。不过,我还不确定这种算法是否适用于智能体。
  2. 唯一能存活的垂直 AI应用是那些锁定了防御性资源的产品,像第二章讲到的。部分公司会选择高价出售这些垄断资源。

2024 年,进展停滞了?

我的这些预测假设 AI 会继续进步。首先我想解释为什么我说它会「继续」进步。

我听到很多人说模型已经停滞了,特别是 2024 年没有看到比 GPT-4 更大的突破。公平地说,这种说法在 12 月 o3 发布后就沉寂下来了。你可以自己看下图 9,然后再判断 AI 进展是不是已经放慢了。

图 9:在著名的 ARC-AGI 基准测试中 AI 的表现

即便没有 o3,我觉得说 2024 年模型停滞也太夸张了。o3 并没有改变我之前的预测。我早就提过,通过扩展测试时间计算,模型能够取得进展。2023 年《Let's verify step by step》论文和 o1 都证明了这一点。技术的第一版从来不是最终版。AlphaZero 证明了,机器学习在有明确目标的领域能超越人类,o1 也做到了,特别是在自然语言处理和数学计算上。但在创意写作等领域,o1 不如其他方法。o3 也没有比 o1 更通用。

真正的「从 0 到 1」时刻是 o1 的出现,而且它也是在 2024 年发布的。可能你觉得扩展计算时间不算什么,毕竟高昂的计算成本可能对智能体来说太贵了。但回想一下年初的基础模型,那个时候的 GPT-4 turbo 只支持文本和图像。到了 2024 年,OpenAI 发布了支持音频和视频的 GPT-4o,虽然相对 GPT-4 来说它带来的智能进步不大,但它之后在逐渐提升。现在看,我们很容易忽略它已经变得多强了。

2024 年,开放权重模型也有了显著进展。在需要博士级知识的科学问题上,年初的最佳模型几乎和随机猜测一样。到 7 月,我们已经接近人类专家水平,年末 DeepSeek V3 也有了类似的进展。从 2023 年的 25-29(+4)到 2024 年的 29-59(+20)。

图 10: 开放权重模型在 GPQA Diamond 基准测试中的表现

2024 年最重要的进步来自 Anthropic。年初,他们还不能用的 Claude 2 刚刚推出,3 月发布了行业领先的 Claude 3,6 月又发布了 Claude 3.5 Sonnet,这是一个巨大的飞跃。从图 11 来看,2024 年春天是基础模型进展最快的时期。那秋天呢?Anthropic 曾说会在年底发布 Claude 3.5 Opus,但之后悄悄把这个信息从官网撤掉了。是训练「失败」了吗?只有 Anthropic 知道。但很多人猜并非如此,而是他们没有从公开发布中看到经济回报。相反,他们可能是用它来为 Claude 3.5 Sonnet 生成合成数据。Sonnet 在 10 月做了另一次升级,支持了这个推测。这不符合「模型停滞」的定义。

图 11: 前沿模型在多个基准测试上的进展

5 个潜在障碍

虽然这条时间线代表了我最好的预测,但一些变化可能会影响这一进程。最大的担忧是:

1. 模型停滞

2024 年没有发生模型停滞,2025 年会发生吗?Ilya Sutskever 在 NeurIPS 的演讲中表示,预训练规模化已经到极限了。这引起了广泛关注,许多人解读为 AI 训练技术的整体停滞,但其实他指的是预训练。随后他又提到,除了预训练,还有其他路径,比如 o1 这样的推理计算方法。o3 的发布进一步证明了,预训练之外还有其他有效的方法。

此外,就像 Dylan Patel 所说的,AI 领域的决策者们正在加大投资计算基础设施,坚决支持 Scaling Law,相信它仍然有效。就连以怀疑语言模型著称的 Yann LeCun 最近也缩短了自己的预期时间。12 月,他说超级智能「还很遥远」,但接着补充道:「它不是几百年后的事,可能也不是几十年,而是几年内就有可能实现。」

图 12:Ilya Sutskever 在 2024 年 NeurIPS 上的演讲

2. 监管

目前的监管提案似乎不会显著拖慢 AI 的进展(我不是这方面的专家)。大多数提案都相对温和,而且即使如此,也很难通过。不过,如果发生一起 AI 相关的重大悲惨事故,公众的态度可能会迅速转变,进而迫使政治家采取更强硬的措施。

3. 信任障碍

现在大家对 AI 幻觉有些担心,未来可能会更担心让智能体独立行动。虽然我之前已经预料到初步的方案,但我觉得这种担忧会随着时间慢慢消失。历史上有很多类似的例子:以前有人害怕自动电梯,现在回头看,那种担心很好笑。AI 智能体的普及可能也会是这样——最开始大家都怀疑,但随着它变得更可靠,最终大家会接受它。

4.AI 实验室的迟疑

目前,Claude Compute Use 不能登录网站,就算你有正确的凭证。类似地,实验室可能会犹豫,是否让智能体在 2027 年开始与传统软件互动,尽管它在技术上是可以做到的。

5. 昂贵的推理

OpenAI 的 o3 证明了,花费大量资金进行推理是可行的,而且能带来更好的效果。比如在 ARC 基准测试中,每个任务的推理成本可能高达数千美元。我们可能会看到类似图 13 中 Paul Buchheit 理论的情况。我们有可能让通用智能体在各个垂直领域都能有效工作,但由于高昂的运行成本,它可能变得不实际。不过,推理成本现在已经在稳步下降,通用智能体也不太可能每次都使用最大计算能力进行推理。

图 13:Paul Buchheit 的推文

预测技术变革一直是件难事,而上面提到的障碍可能会大大改变这个时间线。如果这个趋势继续,AI应用层的初创公司将会面临不小的挑战。它们可能会在与 AI 实验室竞争通用产品时遇到困难,同时,通过垂直应用创造价值的窗口也会很快关上。如图 14 所示,我认为初创公司在这一领域的总价值会呈倒 U 型:先随着工程投入带来一些初步价值,接着随着更强的模型出现,这些工程工作会变得过时,总价值会下滑。

图 14:AI应用层初创公司预期价值随时间变化表,分三个阶段

这可能会让创始人们感到沮丧。第一章和第二章发布后,我收到了很多类似「那是不是意味着我们该放弃了?」的评论,但我并不是这个意思。其实,外面还有很多问题有待解决,AI应用并不是唯一的选择。对于那些在考虑下一步的创始人来说,有几个问题需要思考:做一个垂直应用能不能为未来的机会提供战略定位?如果不能,那我还能做什么?第四章会继续探讨这些问题。

04 创业就像巫师,在别人看不到机会的地方创造价值

我认为在未来几年,AI应用领域将对初创公司来说非常艰难,就像我在上一章提到的。现在这些初创公司的收入增长看起来很不错,增长势头会持续下去,但到了 2027 年,AI 实验室的通用产品会变得非常强大,最终主导市场。

这可能让创始人们非常沮丧。在第一章和第二章发布后,我收到了不少类似「所以你是在说我们应该放弃吗?」的评论,但这并不是我的意思。外面有许多机会,AI应用根本不是你唯一能做的。

创始人就像巫师一样,在别人看不到机会的地方创造价值。创业需要创新的思维。正如 Paul Graham 说的:

「光正确还不够。你的想法既要对,还要新颖 (…) 你不会为了去做大家都觉得有戏的事而创业。」

但是,我觉得很多创始人已经被同行的收入数字迷住了。那段话出自 Paul Graham 的《如何独立思考》。当你周围的人都在做一样的事,而且做得还不错,独立思考就变得异常难。接下来是我自己的思考。希望这些思考能引发你一些新的思路。

我相信,主导 AI应用层的通用智能体将是 AI 实验室做的。虽然可能会有模型性能的分歧,最后可能会有一个赢家,但我觉得更可能的情况是,Anthropic、OpenAI、Google 和 xAI 之间会激烈竞争,这会变成一场价格战,短期内的赢家会是终端用户。即便 AI 实验室们在短期内赚不到太多钱,但它们会变得非常强大,强大到我认为创始人应该在考虑自己初创公司的时候,就思考自己跟这些实验室的关系。

创业者们能做的事还有很多

1. 客户

我认为可以构建一个利用 LLM API 的 AI 垂直应用,但前提是你必须能够独占某些关键资源,就像第二章中讨论的。如果你决心做垂直应用,你应该投入大量时间和精力去找这些资源。

2. 竞争者

如果通用智能体代表着未来,为什么不做一个呢?让我们看看三种可能的路径:

a. 抢占市场先机

AI 实验室要等到模型足够强大,强大到能用最小的工程投入打造出通用智能体时,才会真正和垂直工作流竞争。理论上,你可以通过早期模型的工程投入来占领市场。Leopold Aschenbrenner 认为,这个过程可能比开发新模型还要久:

「开发过程可能比模型解锁花的时间还多,等到远程工作者们都能自动化大量工作的时候,过渡期模型可能还没完全开发出来。」

无论谁先来,市场的领先地位都不会持续太久。

b. 智能体 API 包装

我的室友之前问:「就没人能做个更好的 UI 吗?」他不明白,模型 API 都已经开放了,为什么没人做出比 ChatGPT 更好的东西。

这个问题暴露了两个问题:1)API 成本让利润不可持续,2)实验室不发布最强的模型(ChatGPT 还使用了自己的专有模型来做检索、浏览等功能)。

现在,没人通过 GPT API 和 ChatGPT 直接竞争,我预计通用智能体也会面临同样的问题。

c. 开源模型

开源模型是另一个可能的选择。Perplexity 的例子说明,开源模型有潜力跟实验室的通用产品竞争。但开源模型在简单的基准测试中表现很好,但在复杂的智能体任务中就很难应对。比如图 16 中,Llama-3.1-405b 在 MLE-bench 上的表现明显落后于前沿模型。在我联创的 Andon Labs,我们专注于这类基准测试,结果也类似。

图 16: 在 MLE-bench 上的模型比较

这篇文章是我在发布前一个月写的。当时 Deepseek V3 和 R1 已发布,表现非常好。不过,o3 也发布了,据说 Anthropic 内部还有更强的版本。我们将会看到越来越接近前沿的开源模型,但我怀疑它们能否超越现有的前沿。尽管如此,这些开源模型仍然足够强大,可以参与通用竞争。不过,需要注意的是,推理成本依旧非常高。

3. 供应商

如果 AI 实验室真能变得这么强大,做它们的供应商将是个不错的机会。很明显,它们需要大量的算力。如果图 3 中 Leo 的分析是对的,需求可能比你预想的还要多。这个机会需要深入的行业知识,而对于现在处于 AI应用层的创业者来说,可能还不太容易。但记住,你是个巫师。

AI 实验室还会从第三方购买数据。Scale AI 正在证明这一点是个不错的商机。不过,这里有个问题,AI 实验室能否让「自我博弈」技术成功。AlphaZero 就是一个著名的例子,它没有使用任何外部数据,训练过程被认为是未来 AI 模型的理想方式。如果它们做不到自我博弈,另一条路可能就是把多个后期训练数据集拼接在一起。在这种情况下,卖数据应该是个很有前景的选择!

图 17: 预计美国电力生产与 AI 需求的对比。电力生产保持平稳,而 AI 需求预计会以指数级增长,到 2030 年可能会超过当前的电力生产值。最大的训练集群需求占比很大

4. 生态系统

与 AI 实验室的另一个可能关系是成为生态系统的贡献者。也就是说,开发一些帮助通用智能体的工具,关键是这些工具要和智能体本身分开。就像第三章说的,传统软件会继续存在,因为智能体需要高效的接口。虽然智能体理论上可以自己编写软件,但因为推理成本太高,可能并不实际。

生态系统的参与者也有可能变得商品化,所有的价值都被其他地方吸走。我认为这很大程度上取决于运行通用智能体的推理成本。如果推理成本低,智能体更可能自己写它需要的程序。

如果时间线更长怎么办?

时间线真的是关键——如果通用智能体要 10 年才能真正有竞争力,那做一个垂直 AI 就很值。你有足够的时间来建立一家有分量的公司。

虽然实验室的进展速度很快,10 年的时间可能不太现实,但如果是 4 年呢?4 年可能不足以做成一个巨头公司,但足够让你不断迭代优化。从 AI应用层起步,可能可以帮你为未来转型成供应商或生态系统角色做好准备。

05 结语:YC 犯了错?

从表面上看,YC 似乎犯了个大错。他们大部分的投资都集中在一个即将衰退的领域。但老实说,我对风险投资的理解还不够深入,不能完全确定自己的判断。我只是想说,我有些困惑,欢迎大家给我一些意见。

YC 说自己基本上是无偏见(non-opinionated)的,不带有过多主观判断,他们投资的是最聪明的人,期望这些聪明人找到最好的创意。这策略没错,毕竟很多创始人在预测未来细节上肯定比 14 个合伙人更行。

YC 项目中的一个重要环节是每周设定目标。大家在大团队中合作,很有动力。但如果想法的多样性不够,就容易陷入短期思维。如果你的目标是下周就做出 5k MRR,那做一个 AI 垂直产品确实是个好主意,但我不认为这样能帮你做出一个持久的生意。虽然我有点坚持这个看法,但如果我在 YC 的批次里,我也会很容易受到诱惑。更有意思的是,YC 的播客「The Light Cone」几乎每集都提倡做垂直 AI。

我原以为 YC 的无偏见策略是有效的,因为它注重多样性,但可能我错了。