今天的AI创业正在重复《苦涩的教训》

来自极客公园，专注与科技创业者聊「真问题」。

「RL 之父」Rich Sutton 在 2019 年发表的经典短文 The Bitter Lesson《苦涩的教训》广为人知，并且时不时被人提起。

「70 年的 AI 研究历史告诉我们一个最重要的道理：依靠纯粹算力的通用方法，最终总能以压倒性优势胜出。」

如今，似乎可以重新再聊下这个话题。

未来 AI 智能体的发展方向还得是模型本身，而不是工作流（Work Flow）。

以及最近 Gemini 和 4o 更新的图片功能，可能直接取代了很多图片工作流——用自然语言对话完成现在复杂的 SD 图像生成工作流。

模型的通用能力，正在取代现在那些复杂的 Workflow。

今天编译的这篇文章，是作者 Lukas Petersson 听完 YC 100 多个项目路演后写下了一个有趣的观察：《苦涩的教训》中所写的 AI 研究历史似乎正在 AI 创业界重演。

作者介绍：Lukas Petersson，Andon Labs 的 CEO 兼联合创始人，专注 AI 安全评估和大语言模型研究。此前，他曾在 Google 实习，曾在 Disney Research 开发病毒式机器人，还曾参与探空火箭发射项目，担任项目主要负责人。

01 历史重演：AI 创业在重复这个教训

太长不看版：

历史上，通用方法始终在 AI 领域占主导。
如今，AI应用领域的创始人们正在重复 AI 研究人员过去犯过的错误。
更强大的 AI 模型将催生更多通用 AI应用，同时也会削弱 AI 模型「套壳」软件的附加价值。

AI 技术的飞速发展带来了一波又一波新产品。在 YC 校友 Demo Day 上，我见证了 100 多个创业项目的路演。这些项目都有一个共同点：它们瞄准的都是简单问题，加了各种限制的 AI 就能解决。

但 AI 真正的价值在于它能灵活处理各类问题。给 AI 更多自由度通常能带来更好的效果，但现阶段的 AI 模型还不够稳定可靠，所以还无法大规模开发这样的产品。

这种情况在 AI 发展史上反复出现过，每次技术突破的路径都惊人地相似。如果创业者们不了解这段历史教训，恐怕要为这些经验「交些学费」。

2019 年，AI 研究泰斗 Richard Sutton 在他那篇著名的《苦涩的教训》开篇提到：

「70 年的 AI 研究历史告诉我们一个最重要的道理：依靠纯粹算力的通用方法，最终总能以压倒性优势胜出。」

那些精心设计的「专家系统」，最终都被纯靠算力支撑的系统打得落花流水。我们在语音识别、计算机象棋和计算机视觉中都看到了这种模式。这篇文章标题里的「苦涩」二字，正是来自这个在 AI 圈一演再演的剧情——从语音识别到计算机象棋，再到计算机视觉，无一例外。

如果 Sutton 今天重写《苦涩的教训》，他一定会把最近大火的生成式 AI 也加入这份「打脸清单」，提醒我们：这条铁律还没失效。

同在 AI 领域，我们似乎还没有真正吸取教训，因为我们仍在重复同样的错误...... 我们必须接受这个苦涩的教训：在 AI 系统中，强行植入我们认为的思维方式，从长远来看是行不通的。
这个「苦涩的教训」源于以下观察:
AI 研究者总想把人类的知识经验塞进 AI
这招短期确实管用，还能让研究者有成就感
但迟早会遇到瓶颈，甚至阻碍 AI 的进步
真正的突破往往出人意料——就是简单地加大算力

站在 AI 研究者的角度，我们需要在总结教训的过程中明确了什么是「更好」的。对于 AI 任务，这很好量化——下象棋就看赢棋概率，语音识别就看准确率。对于本文讨论的 AI应用产品，「更好」不仅要看技术表现，还要考虑产品性能和市场认可度。

从产品性能维度来看，即产品能在多大程度上取代人类的工作，性能越强，就能处理越复杂的任务，创造的价值自然也就越大。

图 1. 展示了不同类型的 AI 产品，本文主要讨论应用层

AI 产品通常是给 AI 模型加一层软件包装。因此，要提升产品性能，有两条路径：

工程升级：在软件层面利用领域知识设置约束规则
模型升级：等待 AI 实验室发布更强大的模型

这两条路看似都可行，但在此有个重要洞察：模型能力越强，工程优化的边际效益就越低。

现阶段，软件端的设计确实能提升产品表现，但这只是因为当前模型还不够完善。随着模型变得更可靠，只需要将模型接入软件就能解决大多数问题了——不需要复杂的的工程。

图 2. 投入工程的价值会随着投入增加和更强大模型的出现而递减

上图展示了一个趋势：随着 AI 模型的进步，优化工程带来的价值将逐渐减少。虽然当前的模型还有明显不足，企业仍能通过工程投入获得可观回报。

这一点在 YC 校友 Demo Day 上表现得很明显。创业公司主要分为两类：第一类是已经实现规模化的产品，专注解决简单问题，但数量还不多；第二类则瞄准了相对复杂的问题。后者目前发展势头不错，因为他们的概念验证证明：只要在工程上下足功夫，就能达到预期目标。

但这些公司面临一个关键问题：下一个模型发布会不会让所有工程上的都成为无用功，摧毁他们的竞争优势？OpenAI 的 o1 模型发布就很好地说明了这个风险。

我和很多 AI应用层的创业者聊过，他们都很担心，因为他们投入了大量精力来完善提示词。有了 o1 后，提示词工程的重要性就大大降低了。

从本质上讲，这种工程的目的是为了让 AI 少犯错误。通过观察众多产品，可以概括为两类约束：

专业性：衡量产品的聚焦程度。垂直型产品专注于解决特定领域的问题，配备了专门的软件包装；而水平型产品则更通用，能处理多种不同类型的任务。
自主性：衡量 AI 的独立决策能力。在此借鉴一下 Anthropic 的分类：
工作流：AI 按预设路径运行，使用固定的工具和流程
智能体：AI 可以自主选择工具和方法，灵活决策如何完成任务

这就规定了一个 AI 产品的分类框架：

表 1. 对知名 AI 产品的分类。需要注意的是，ChatGPT 可能每次对话都会遵循预先设定的代码路径，因此更像工作流而非智能体

让我们以商业分析师制作路演 PPT 为例，看看每类产品如何实现这个任务：

垂类工作流：它按固定步骤执行任务，比如，先用 RAG 查询公司数据库，小型 LLM 做总结，大型 LLM 提取关键数据并计算，检查数据合理性，最后生成 PPT。每次都严格遵循这个流程。
垂类智能体：LLM 能自主决策，循环工作，用上一步的结果指导下一步行动，虽然可用工具相同，但由 AI 自己决定何时使用。直到达到质量标准才停止。
通用工作流：像 ChatGPT 这样的通用工具只能完成部分任务，既不够专业也不够自主，无法完整处理整个工作流。
通用智能体：例如 Claude computer-use，能像人一样操作常规办公软件。分析师只需用自然语言下达指令，它就能根据实际情况灵活调整工作方法。

Demo Day 上几乎所有产品都属于垂直工作流。这很好理解——当前的 AI 模型还不够成熟，只能用这种方式才能达到可用水平。结果就是，即使是过于复杂的问题，创业者们也不得不硬塞进这个框架，因为这是目前唯一能让产品勉强可用的方法。

虽然通过工程优化可以提升这些产品，但提升空间有限。对于当前模型难以处理的问题，与其投入大量工程资源，不如等待更强大的模型出现——到时只需很少的工程就能解决问题。

就像 Leopold Aschenbrenner 在《Situational Awareness》中说的：「完善这些繁琐的工程，可能比等待更强大的模型还要浪费时间。」

这不禁让人联想起那个「苦涩的教训」：AI 研究者反复尝试用工程手段提升性能，最终却总是被简单堆算力的通用方案超越。今天的 AI 产品开发似乎正在重蹈覆辙。

把表 1 的内容和《苦涩的教训》联系起来之后，这样能更清楚地看到其中的关联：

《苦涩的教训》的观察

自主性

专业性

AI 研究者总想把人类的知识经验塞进 AI

开发者发现自主智能体不够稳定，只好硬编码固定流程

通用文档分析系统不可靠，于是被迫缩小到特定领域（如仅分析财务报表，硬编码具体指标）

这招短期管用，还能让研究者有成就感

自主性受限提高了系统可靠性

专业化提升了准确率，因为模型只需要处理固定场景中有限的文档和指标

但迟早会遇到瓶颈，甚至阻碍 AI 的进步

固定的工作流难以应对新情况

专业化系统难以扩展，每个新任务都需要重建系统

真正的突破往往来自于简单地加大算力

新模型能自主找到解决方案，动态调整策略

新模型的通用理解能力让专业限制变得多余，无需依赖专门化系统

对于那些解决路径不清晰的问题，产品如果有更高的自主性，通常表现会更好。类似的，在面对大规模、复杂输入时，功能不那么具体的产品反而表现更好。

总而言之，我的观点是：试图用软件工程来弥补当前 AI 模型的不足，似乎是一场注定失败的战斗，尤其是考虑到现在 AI 技术发展的惊人速度。

正如 YC 合伙人 Jarred 在 Lightcone 播客中说的：「第一波基于固定流程的 AI应用，大多被新一代 GPT 模型淹没了。」

Sam Altman 常说，要做那种期待而不是害怕新模型发布的创业公司。我遇到的很多 AI 创业者对新模型都很兴奋，但从他们公司的利益看，这种兴奋可能不太合适。

或许他们没有意识到图 2 表达的观点：更强的模型其实可能会让你的竞争优势变小，而不是变大。这个观点主要是从产品性能的角度来说的——关键是要做出能更高效解决复杂问题的产品。

从统计学角度理解《苦涩的教训》

让我们用简单的统计学来理解这个道理。在做模型时，通常要面临一个选择：要么做一个规则很死板的模型（高偏差），要么做一个灵活但不太稳定的模型（高方差）。《苦涩的教训》告诉我们：选灵活的。

究其原因，因为只要有足够的算力和数据，灵活的模型最终也能变得很稳定。就像打篮球，就算姿势不标准，练得多了也能投准。但反过来就不行了，太死板的方法会被自己的规则限制住。

这跟 AI 产品是一个道理。做垂直领域的工具，加各种限制，就像给 AI 加规则，现在看起来更稳定，但限制了它的潜力。相反，让 AI 更自由一点虽然现在看着不太靠谱，但随着模型越来越强，它反而能找到更好的办法。历史一再证明，跟灵活性对着干是不明智的。

两种做 AI 的方法

图 3：对比了两种方法。传统机器学习需要人工来告诉机器「什么是重要的」，深度学习则能自己学会

传统机器学习需要人来决定什么信息重要。比如给一张图片，你得手动找出有用的特征，数一数有多少个圆形，测量一下各种尺寸等等。但深度学习不同，它能自己学会找重要的东西。

图 4：比如自动驾驶。系统要识别和跟踪车辆、行人、车道线等具体物体。这就是分解复杂问题的传统方法。

以自动驾驶来说，你有两种方式：

老方法：把车看到的东西分解：前面的车在哪，车道线在哪，那个人跑多快？
新方法：直接把视频扔给 AI，让它自己学会开车。

老方法看着更靠谱，更有把握。所以早期的 AI 都这么干。但正如 George Hotz 所说：「AI 的历史告诉我们，老方法最后总会被新方法打败。」

DeepMind 研究员 Sholto Douglas：就像其他所有深度学习系统一样，押注端到端就对了

接下来，在第二章中，我们会聊聊另一个话题：市场接受度。毕竟，只有好性能并不一定能在市场上成功。

02 垂直 AI 占不到任何便宜

太长不看版：

通用 AI 最终会在大多数垂直领域超越垂直 AI。虽然垂直 AI 总能抢跑，但谁能笑到最后呢？
用户迁移成本几乎为零。通用 AI 就像远程同事，插个 API 就能上岗，接入过程像新员工入职一样简单。
垂直 AI 也很难在其他方面建立护城河。在 Helmer 的七大竞争优势中，垂直 AI 没占到任何便宜。
在极少数情况下，某个垂直 AI 既独家又是垂直领域的刚需。但这种情况很少见。很多自以为有数据壁垒的公司，其实都误解了需求。要么数据根本不稀缺，要么不是真正的刚需。

注：本文中 Horizontal AI 暂译为通用 AI，相对于垂直场景的 AI。

AI 的历史告诉我们一个规律：那些试图通过专业领域知识弥补模型局限的做法，最终会被依靠算力的方法取代。第一章我们也看到，很多公司做的是受限的垂直 AI 产品，而不是更灵活、能随着模型进步的产品。

但只有好性能并不意味着能占领市场。本章通过 Hamilton Helmer 的《七大竞争优势》框架，分析了垂直产品和通用产品在市场上的接受度。

我们发现，做垂直工作流的产品，一旦有了通用替代品，就很难维持市场地位，因为缺乏战略优势。不过，有个关键例外，给 AI 创业者提供了一个明确的方向。

正如第一章提到的，使用更强大且限制更少的模型的产品，最终会表现得更好。然而，目前基于现有模型的产品（通过加入人为的偏差减少错误）可能会更早进入市场。

本文讨论的重点是，当我们进入图 1 中的绿色区域后，AI 垂直领域是否还能在更强大的通用 AI 产品出现后保持市场份额。

图 5：垂直 AI 和通用 AI 产品随着时间变化的表现对比（简化版），分为三个阶段：传统软件主导期→垂直 AI 窗口期→通用 AI 替代期

大部分 AI 能解决的问题其实都很复杂，垂直 AI 很难做到理想效果，就像图 5 那样。很多难题今天没人去解决，这些问题虽然占了大部分潜在市场，但在现有 AI应用中还只是少数。

图 6，垂直 AI 产品永远达不到足够的性能水平，而通用 AI 通过改进模型能得到更好的表现

对于图 5 里提到的那些简单的、现在就能找到方法解决的问题，问题就变成了：当更好的解决方案出现时，垂直 AI 还能保持领先吗？

简单来说，垂直 AI 很容易辨认，因为现在很多 AI 创业公司都在做。第一章已经讲过，垂直 AI 限制固定的工作流来提高可靠性，而通用 AI 就像远程同事。

让我们想象一个能在后台用传统软件完成任务的 ChatGPT，接入的过程就像给新员工入职一样——给它电脑和账号权限，然后用自然语言给它指令。你不需要给它所有的数据源，因为它可以自己找到需要的数据。此外，我们假设这个通用 AI 是由 OpenAI、Anthropic 这样的 AI 实验室开发的。第四章我们会讨论为什么这种情况很可能发生。

值得注意的是，虽然我把通用 AI 比作一位「智能同事」，但它不需要真的像人类一样聪明，这不是什么 ASI 一样的超级智能。它只要足够聪明，能在找不到现成的工具时自己写代码就行了。我认为这种情况很快就能实现，因为 AI 在编程这块进展最大。

当然，也有关于这是否会实现，以及什么时候实现的问题，第三章我们会讨论。不过我碰到过不少创始人相信这会发生，而且他们依然认为自己的垂直 AI 能够在这种竞争中存活下来。

我自己也曾在这场竞争中失败过一次。2022 年 11 月，OpenAI 发布了 ChatGPT，我想用它来帮我解读科学论文，但它没办法处理长输入，当时长输入需要更多算力，OpenAI 为了节省成本做了限制。当 GPT-3.5 的 API 发布时，我开发了一个叫 AcademicGPT 的垂直 AI 产品，分解任务，由多个 API 调用，来解决这个问题，吸引了一些付费用户。然而，支持长输入的 GPT-4 一发布，我的东西就没用了。GPT-4 这种更智能、偏见更少的通用 AI应用比我精心做出来的、有偏见的解决方案好得多。

我不是一个人。YC 的合伙人 Jared 在 Lightcone 播客中说：「第一波 LLM 应用基本都被下一波 GPT 打败了。」当然，那时的产品远没有今天的垂直 AI 复杂。AcademicGPT 只解决了一个输入长度的问题，但那些复杂的垂直 AI 产品解决了多个问题。这也许能让它们活得更久，但最终，AI 模型会直接解决这些问题，就像 GPT-4 通过扩展上下文窗口解决了输入长度问题一样。就像第一章中说的，随着模型变强，它们最终会和一个更优秀的通用方案竞争。

Hamilton Helmer 的《七大竞争优势》给我们提供了一个框架，帮我们分析这些产品是否能在竞争中存活下来。这个框架提到了七种长期有效的竞争优势：规模经济、网络效应、反向定位、转换成本、品牌、封闭资源和过程能力。

转换成本（Switching Cost）

客户的留存往往是因为换服务商带来的损失和麻烦太多，所以就算有替代方案，客户还是更倾向于继续用现有的服务。

集成/用户体验

用户可能已经习惯了垂直 AI 的界面，但这不是个阻碍，因为接入通用 AI 就像给新员工入职一样，过程很简单。就像是 Leopold Aschenbrenner 说的一样：「接入远程工作者太简单了——把他们加入进来，自动化所有可以远程做的工作就行了。」

而且，这个远程同事将会是你已经熟悉的通用 AI 产品。很多人已经习惯了 ChatGPT 的界面，而且这个通用 AI 还能共享任务之间的上下文。

自然语言对话是最适合的界面，因为它是我们日常沟通的方式。不过，有些时候，计算机界面可能更高效。像 Excel 这样的传统软件在这些情况下仍然能和通用 AI 配合使用。但我认为，可能会有一些细分领域，既不适合传统软件，也不适合自然语言对话。如果垂直 AI 在这些领域能创新出合适的界面，就会有较高的转换成本。不过，它们的优势并不完全是 AI 技术相关的；通用 AI 也能使用的非 AI 版本同样能带来价值。

销售

如果通用产品是基于已有产品发展而来的，那么销售就不是个问题。许多公司已经在用 ChatGPT，并且未来会有更多企业加入。

价格

目前我们接触到的最接近通用 AI 的产品是 Claude Computer-use，它因为频繁调用大型 LLM 和高分辨率图像，运行成本非常高。AI 垂直产品通常通过限制输入，只保留他们认为相关的内容，来尽量降低成本。但模型运行成本已经在大幅下降，我预计这种趋势会继续下去。而且，拥有一个横跨多个垂直领域的单一产品，而不是买很多个不同的产品，将会大大节省成本。

反向定位（Counter Positioning）

这是一种新的商业方法，让公司在市场中占据一个竞争者们很难挑战的独特的位置。传统大公司很难或者根本不可能复制。

乍一看，垂直产品有反向定位的优势，因为它们能为特定客户定制解决方案。但这个优势只有在你的产品确实比竞争对手更好的情况下才有效。但在我们讨论的案例和场景中，垂直 AI 并没有做到这一点。更多内容参见第一章。

事实上，通用 AI 产品在反向定位上占了便宜。它们随着每次模型的进步自然地扩展，而垂直产品要么保持现有的限制，性能逐渐落后，要么接受更强的模型，失去差异化优势。

规模经济（Scale Economy）

随着业务扩大，单位成本逐渐降低，让公司变得越来越高效。

通用和垂直这两种方案都能享受规模经济带来的好处。

垂直产品可以像传统 SaaS 一样高效扩展，但通用 AI 产品可以更快地降低价格，因为它们的研发成本可以分摊到多个行业的用户，这是它们的一个额外的优势。

网络效应（Network Economy）

随着客户群的扩大，每个用户得到的产品或服务的价值也随之提高。每新增一个用户，就能为其他所有用户创造更多的价值，其他用户的体验也会提升，形成一个自我强化的增长循环。

垂直和通用产品都能从网络效应中受益，但通用 AI 有天然的优势，它们能够利用更多的用户数据训练更强的模型，形成更广泛的反馈机制，提升所有场景的效果。

品牌力（Brand Power）

品牌力来自公司过去的表现和声誉，是一种长久的价值感知。强大的品牌力能提升客户忠诚度，允许公司溢价定价。

但对于目前初创公司的规模来说，品牌力通常不可能实现。像 OpenAI 和 Google 可能有，但大多数做垂直 AI 的初创公司是没有的。就像图 3。

图 7，业务增长的三个阶段及每个阶段最常见的竞争优势

流程优势（Process Power）

流程优势是指公司内部经过时间积累的高效流程，通常需要竞争对手投入大量的时间和精力才能赶上。

同样，当前这种规模的初创公司也很难达到这种流程优势。参见图7。

垄断资源（Cornered Resource）

指的是某些公司能够在特别有利的条件下，独占使用一些珍贵的资源，从而获得竞争优势。这些资源可能是独家权利、专利或数据。

到目前为止，还没有任何力量能打破通用 AI 与垂直 AI 的竞争。但垄断资源会打破这种局面。这样的资源非常稀有，它必须是完全独占的，任何价格都买不到。而且，它必须是垂直 AI 成功不可或缺的资源，没有它，垂直产品就不能成功。

能够找到这种资源的垂直 AI 非常少。我认为很多 AI 垂直产品误以为它们通过数据拥有这样的优势，但实际上并没有。这些数据要么不必要，要么并不独占。不过，也有一些垂直 AI 产品会找到这种资源。例如，它们可能有一个只有在特定事件中才能收集的数据集。只要它们能控制这些数据，通用 AI 的优势就没办法超越它们。

总结来说，垂直 AI 产品早期会占领市场，但在面对通用 AI 更强大的解决方案时，几乎所有垂直 AI 都很难找到竞争壁垒。通过分析 Helmer 的七大竞争优势，我们发现垄断资源可能是垂直 AI 唯一的护城河。这意味着 AI应用层的创业者应该更多地集中精力获取这种资源，而不是做其他事情，这一点我们将在第四章进一步讨论。

对于那些没有建立护城河的垂直领域，一旦通用解决方案变得有竞争力，就会被超越。我的 AcademicGPT 就经历过这样的情况，它解决了一个当时的通用 AI 解决不了的问题，但很快就失效了。更复杂的垂直 AI 产品，虽然能解决多个问题，最终也会面临同样的命运，只是稍微晚一些。

不过，真正的问题是，大部分人认为通用 AI 产品作为「远程同事」能够在短时间内被广泛应用。这为我们引入第三章的论点，深入探讨 AI应用层的未来发展，预测可能会遇到的具体障碍，包括模型进展停滞、监管难题、信任问题和经济壁垒。

03 关于AI应用的6个预言，5个障碍

未来几年，AI应用领域将对初创公司来说非常艰难？

这篇文章我在 2024 年 12 月写的。刚准备发布时，Anthropic 的 CEO 刚好在采访中谈到他们的「虚拟协作者」（virtual collaborator）计划，正好解释了我所说的「通用 AI 产品」。2025 年 1 月，OpenAI 也刚刚发布他们的 Operator。

预测未来往往难以准确，但我们还是来看看。前两章我分析了为什么垂直 AI应用面临困境：它们在性能上无法与更通用的解决方案竞争，而且当通用产品变得有竞争力时，垂直 AI 往往没有有效的护城河。结果可能是，每个垂直领域都会有一个时刻，市场会从垂直 AI 转向通用 AI。

最关键的问题是：这会发生在什么时候？如果需要十年，那现在做垂直应用也许还能有意义。但如果明年就会发生，那就完全是另一回事了。

本章会分享我对未来几年 AI应用领域的预测，特别是关于关键转型时机的具体预测。第四章会探讨这对 AI 创业者的意义。

垂直到通用 AI 的转变不会在所有垂直领域同时发生。我认为这些转变会随着每次模型发布分批出现。在一些领域，这个时刻可能要等很久，但今天大多数做垂直 AI 的公司都很简单，我认为这些领域会在接近的时间内发生变化，到 2027 年，垂直 AI 仍然能持续发展的领域会非常少。

图 8 总结了我对应用采纳变化的看法，作为文章的目录参考。这里的「采纳（adoption）」是指，为用户在尝试解决新问题或改变现有解决方案时，所选择的产品或方式。

需要注意的是，这里有几个关键点：

这不是市场份额，而是解决方案的选择，现有交易可能滞后。
这是相对的。随着 AI 解锁更多用例，市场规模会变大，但这个变化没在图中展示。
这也不是衡量潜在价值，而是用户选择解决方案的时间点，不考虑未来可能的改进。

举个例子，从 A 到 B 的转变，意味着一个以前偏好方案 A 的用户，现在会选择方案 B。

「垂直/通用」和「工作流/智能体」是两种不同类型的 AI 产品定义，具体细节见第一章。为了简化，图表把通用智能体和工作流归为同一类，因为同一家公司可能同时开发这两种产品。例如，ChatGPT 可能会保持工作流基础，同时加入更多智能体功能。

图 8：预计 2022 至 2027 年间解决方案选择模式的变化。图表展示了用户如何在传统解决方案、通用 AI 产品（包括工作流和智能体）以及垂直 AI 产品之间切换。每个流的宽度表示选择的强度，衡量用户选择新方案或转向其他现有方案的趋势

关于未来几年 AI应用的 6 个预言

过去

ChatGPT 发布前，传统软件主导市场。

ChatGPT 发布，第一个重要的通用 AI 产品。

GPT-3.5 API 发布，第一波垂直 AI 产品。

今年

2025 年将是一个关键的转折点，模型会变得足够可靠，能用于实际的 Agent 应用。到现在为止，智能体大多还只能用于研究项目或概念验证，虽然它们的初始应用规模不大，但潜力会越来越明显。增长将会来自两方面：垂直产品会把它们的工作流升级为智能体，新的应用会以工作流做不到的方式，取代传统软件。
虽然智能体开始崭露头角，但垂直 AI 将在 2025 年之前依然占主导。因为有两个大的转换成本：用户不愿意改变已经在用的工具，开发人员不愿意放弃他们过去几年的工程投入。早期市场中，垂直产品获得的市场地位有强大的惯性。
主要的通用 AI 产品（如 ChatGPT、Claude 和 Gemini）会增加更多功能，扩展它们在更多垂直领域的应用。这个趋势已经开始了。比如，ChatGPT 现在可以和你电脑上的其他桌面应用集成。随着模型进步，这些公司可以用更少的工程投入实现这些功能。随着这些通用产品的提升，垂直 AI 产品将会越来越难销售出去，因为用户会意识到，自己正在用的通用 AI 产品就能解决他们的需求。

（近期的）未来

通用 AI 智能体与人类同事的差距会迅速变小。虽然它们还不完全属于专家级别，但已经足够智能，能可靠地完成大部分从前人类在传统软件里处理的工作。许多人仍然能保持工作，但垂直 AI 解决方案会逐渐过时。下面是我预期的一些具体变化：

a. 消费者会常常用通用智能体处理复杂任务，比如报税、求职和非休闲购物。

b. 公司将大幅减少低层次的招聘，部分公司可能会大规模裁员。但这一转变的速度会比预期慢。

c. 我们将会看到第一个单人独角兽公司。

传统软件将继续通过为智能体提供接口来保有市场价值。尽管智能体理论上能从头创建需要的软件，但考虑到计算成本，现有软件平台更实用。传统软件并不是免费的，但我认为传统的通用软件更有可能活下来，因为智能体虽然不免费，但比人类便宜得多。你可以在 Excel 做 CRM，但购买专业的 CRM 系统更合算。不过，我还不确定这种算法是否适用于智能体。
唯一能存活的垂直 AI应用是那些锁定了防御性资源的产品，像第二章讲到的。部分公司会选择高价出售这些垄断资源。

2024 年，进展停滞了？

我的这些预测假设 AI 会继续进步。首先我想解释为什么我说它会「继续」进步。

我听到很多人说模型已经停滞了，特别是 2024 年没有看到比 GPT-4 更大的突破。公平地说，这种说法在 12 月 o3 发布后就沉寂下来了。你可以自己看下图 9，然后再判断 AI 进展是不是已经放慢了。

图 9：在著名的 ARC-AGI 基准测试中 AI 的表现

即便没有 o3，我觉得说 2024 年模型停滞也太夸张了。o3 并没有改变我之前的预测。我早就提过，通过扩展测试时间计算，模型能够取得进展。2023 年《Let's verify step by step》论文和 o1 都证明了这一点。技术的第一版从来不是最终版。AlphaZero 证明了，机器学习在有明确目标的领域能超越人类，o1 也做到了，特别是在自然语言处理和数学计算上。但在创意写作等领域，o1 不如其他方法。o3 也没有比 o1 更通用。

真正的「从 0 到 1」时刻是 o1 的出现，而且它也是在 2024 年发布的。可能你觉得扩展计算时间不算什么，毕竟高昂的计算成本可能对智能体来说太贵了。但回想一下年初的基础模型，那个时候的 GPT-4 turbo 只支持文本和图像。到了 2024 年，OpenAI 发布了支持音频和视频的 GPT-4o，虽然相对 GPT-4 来说它带来的智能进步不大，但它之后在逐渐提升。现在看，我们很容易忽略它已经变得多强了。

2024 年，开放权重模型也有了显著进展。在需要博士级知识的科学问题上，年初的最佳模型几乎和随机猜测一样。到 7 月，我们已经接近人类专家水平，年末 DeepSeek V3 也有了类似的进展。从 2023 年的 25-29（+4）到 2024 年的 29-59（+20）。

图 10：开放权重模型在 GPQA Diamond 基准测试中的表现

2024 年最重要的进步来自 Anthropic。年初，他们还不能用的 Claude 2 刚刚推出，3 月发布了行业领先的 Claude 3，6 月又发布了 Claude 3.5 Sonnet，这是一个巨大的飞跃。从图 11 来看，2024 年春天是基础模型进展最快的时期。那秋天呢？Anthropic 曾说会在年底发布 Claude 3.5 Opus，但之后悄悄把这个信息从官网撤掉了。是训练「失败」了吗？只有 Anthropic 知道。但很多人猜并非如此，而是他们没有从公开发布中看到经济回报。相反，他们可能是用它来为 Claude 3.5 Sonnet 生成合成数据。Sonnet 在 10 月做了另一次升级，支持了这个推测。这不符合「模型停滞」的定义。

图 11：前沿模型在多个基准测试上的进展

5 个潜在障碍

虽然这条时间线代表了我最好的预测，但一些变化可能会影响这一进程。最大的担忧是：

1. 模型停滞

2024 年没有发生模型停滞，2025 年会发生吗？Ilya Sutskever 在 NeurIPS 的演讲中表示，预训练规模化已经到极限了。这引起了广泛关注，许多人解读为 AI 训练技术的整体停滞，但其实他指的是预训练。随后他又提到，除了预训练，还有其他路径，比如 o1 这样的推理计算方法。o3 的发布进一步证明了，预训练之外还有其他有效的方法。

此外，就像 Dylan Patel 所说的，AI 领域的决策者们正在加大投资计算基础设施，坚决支持 Scaling Law，相信它仍然有效。就连以怀疑语言模型著称的 Yann LeCun 最近也缩短了自己的预期时间。12 月，他说超级智能「还很遥远」，但接着补充道：「它不是几百年后的事，可能也不是几十年，而是几年内就有可能实现。」

图 12：Ilya Sutskever 在 2024 年 NeurIPS 上的演讲

2. 监管

目前的监管提案似乎不会显著拖慢 AI 的进展（我不是这方面的专家）。大多数提案都相对温和，而且即使如此，也很难通过。不过，如果发生一起 AI 相关的重大悲惨事故，公众的态度可能会迅速转变，进而迫使政治家采取更强硬的措施。

3. 信任障碍

现在大家对 AI 幻觉有些担心，未来可能会更担心让智能体独立行动。虽然我之前已经预料到初步的方案，但我觉得这种担忧会随着时间慢慢消失。历史上有很多类似的例子：以前有人害怕自动电梯，现在回头看，那种担心很好笑。AI 智能体的普及可能也会是这样——最开始大家都怀疑，但随着它变得更可靠，最终大家会接受它。

4.AI 实验室的迟疑

目前，Claude Compute Use 不能登录网站，就算你有正确的凭证。类似地，实验室可能会犹豫，是否让智能体在 2027 年开始与传统软件互动，尽管它在技术上是可以做到的。

5. 昂贵的推理

OpenAI 的 o3 证明了，花费大量资金进行推理是可行的，而且能带来更好的效果。比如在 ARC 基准测试中，每个任务的推理成本可能高达数千美元。我们可能会看到类似图 13 中 Paul Buchheit 理论的情况。我们有可能让通用智能体在各个垂直领域都能有效工作，但由于高昂的运行成本，它可能变得不实际。不过，推理成本现在已经在稳步下降，通用智能体也不太可能每次都使用最大计算能力进行推理。

图 13：Paul Buchheit 的推文

预测技术变革一直是件难事，而上面提到的障碍可能会大大改变这个时间线。如果这个趋势继续，AI应用层的初创公司将会面临不小的挑战。它们可能会在与 AI 实验室竞争通用产品时遇到困难，同时，通过垂直应用创造价值的窗口也会很快关上。如图 14 所示，我认为初创公司在这一领域的总价值会呈倒 U 型：先随着工程投入带来一些初步价值，接着随着更强的模型出现，这些工程工作会变得过时，总价值会下滑。

图 14：AI应用层初创公司预期价值随时间变化表，分三个阶段

这可能会让创始人们感到沮丧。第一章和第二章发布后，我收到了很多类似「那是不是意味着我们该放弃了？」的评论，但我并不是这个意思。其实，外面还有很多问题有待解决，AI应用并不是唯一的选择。对于那些在考虑下一步的创始人来说，有几个问题需要思考：做一个垂直应用能不能为未来的机会提供战略定位？如果不能，那我还能做什么？第四章会继续探讨这些问题。

04 创业就像巫师，在别人看不到机会的地方创造价值

我认为在未来几年，AI应用领域将对初创公司来说非常艰难，就像我在上一章提到的。现在这些初创公司的收入增长看起来很不错，增长势头会持续下去，但到了 2027 年，AI 实验室的通用产品会变得非常强大，最终主导市场。

这可能让创始人们非常沮丧。在第一章和第二章发布后，我收到了不少类似「所以你是在说我们应该放弃吗？」的评论，但这并不是我的意思。外面有许多机会，AI应用根本不是你唯一能做的。

创始人就像巫师一样，在别人看不到机会的地方创造价值。创业需要创新的思维。正如 Paul Graham 说的：

「光正确还不够。你的想法既要对，还要新颖 (…) 你不会为了去做大家都觉得有戏的事而创业。」

但是，我觉得很多创始人已经被同行的收入数字迷住了。那段话出自 Paul Graham 的《如何独立思考》。当你周围的人都在做一样的事，而且做得还不错，独立思考就变得异常难。接下来是我自己的思考。希望这些思考能引发你一些新的思路。

我相信，主导 AI应用层的通用智能体将是 AI 实验室做的。虽然可能会有模型性能的分歧，最后可能会有一个赢家，但我觉得更可能的情况是，Anthropic、OpenAI、Google 和 xAI 之间会激烈竞争，这会变成一场价格战，短期内的赢家会是终端用户。即便 AI 实验室们在短期内赚不到太多钱，但它们会变得非常强大，强大到我认为创始人应该在考虑自己初创公司的时候，就思考自己跟这些实验室的关系。

创业者们能做的事还有很多

1. 客户

我认为可以构建一个利用 LLM API 的 AI 垂直应用，但前提是你必须能够独占某些关键资源，就像第二章中讨论的。如果你决心做垂直应用，你应该投入大量时间和精力去找这些资源。

2. 竞争者

如果通用智能体代表着未来，为什么不做一个呢？让我们看看三种可能的路径：

a. 抢占市场先机

AI 实验室要等到模型足够强大，强大到能用最小的工程投入打造出通用智能体时，才会真正和垂直工作流竞争。理论上，你可以通过早期模型的工程投入来占领市场。Leopold Aschenbrenner 认为，这个过程可能比开发新模型还要久：

「开发过程可能比模型解锁花的时间还多，等到远程工作者们都能自动化大量工作的时候，过渡期模型可能还没完全开发出来。」

无论谁先来，市场的领先地位都不会持续太久。

b. 智能体 API 包装

我的室友之前问：「就没人能做个更好的 UI 吗？」他不明白，模型 API 都已经开放了，为什么没人做出比 ChatGPT 更好的东西。

这个问题暴露了两个问题：1）API 成本让利润不可持续，2）实验室不发布最强的模型（ChatGPT 还使用了自己的专有模型来做检索、浏览等功能）。

现在，没人通过 GPT API 和 ChatGPT 直接竞争，我预计通用智能体也会面临同样的问题。

c. 开源模型

开源模型是另一个可能的选择。Perplexity 的例子说明，开源模型有潜力跟实验室的通用产品竞争。但开源模型在简单的基准测试中表现很好，但在复杂的智能体任务中就很难应对。比如图 16 中，Llama-3.1-405b 在 MLE-bench 上的表现明显落后于前沿模型。在我联创的 Andon Labs，我们专注于这类基准测试，结果也类似。

图 16：在 MLE-bench 上的模型比较

这篇文章是我在发布前一个月写的。当时 Deepseek V3 和 R1 已发布，表现非常好。不过，o3 也发布了，据说 Anthropic 内部还有更强的版本。我们将会看到越来越接近前沿的开源模型，但我怀疑它们能否超越现有的前沿。尽管如此，这些开源模型仍然足够强大，可以参与通用竞争。不过，需要注意的是，推理成本依旧非常高。

3. 供应商

如果 AI 实验室真能变得这么强大，做它们的供应商将是个不错的机会。很明显，它们需要大量的算力。如果图 3 中 Leo 的分析是对的，需求可能比你预想的还要多。这个机会需要深入的行业知识，而对于现在处于 AI应用层的创业者来说，可能还不太容易。但记住，你是个巫师。

AI 实验室还会从第三方购买数据。Scale AI 正在证明这一点是个不错的商机。不过，这里有个问题，AI 实验室能否让「自我博弈」技术成功。AlphaZero 就是一个著名的例子，它没有使用任何外部数据，训练过程被认为是未来 AI 模型的理想方式。如果它们做不到自我博弈，另一条路可能就是把多个后期训练数据集拼接在一起。在这种情况下，卖数据应该是个很有前景的选择！

图 17：预计美国电力生产与 AI 需求的对比。电力生产保持平稳，而 AI 需求预计会以指数级增长，到 2030 年可能会超过当前的电力生产值。最大的训练集群需求占比很大

4. 生态系统

与 AI 实验室的另一个可能关系是成为生态系统的贡献者。也就是说，开发一些帮助通用智能体的工具，关键是这些工具要和智能体本身分开。就像第三章说的，传统软件会继续存在，因为智能体需要高效的接口。虽然智能体理论上可以自己编写软件，但因为推理成本太高，可能并不实际。

生态系统的参与者也有可能变得商品化，所有的价值都被其他地方吸走。我认为这很大程度上取决于运行通用智能体的推理成本。如果推理成本低，智能体更可能自己写它需要的程序。

如果时间线更长怎么办？

时间线真的是关键——如果通用智能体要 10 年才能真正有竞争力，那做一个垂直 AI 就很值。你有足够的时间来建立一家有分量的公司。

虽然实验室的进展速度很快，10 年的时间可能不太现实，但如果是 4 年呢？4 年可能不足以做成一个巨头公司，但足够让你不断迭代优化。从 AI应用层起步，可能可以帮你为未来转型成供应商或生态系统角色做好准备。

05 结语：YC 犯了错？

从表面上看，YC 似乎犯了个大错。他们大部分的投资都集中在一个即将衰退的领域。但老实说，我对风险投资的理解还不够深入，不能完全确定自己的判断。我只是想说，我有些困惑，欢迎大家给我一些意见。

YC 说自己基本上是无偏见（non-opinionated）的，不带有过多主观判断，他们投资的是最聪明的人，期望这些聪明人找到最好的创意。这策略没错，毕竟很多创始人在预测未来细节上肯定比 14 个合伙人更行。

YC 项目中的一个重要环节是每周设定目标。大家在大团队中合作，很有动力。但如果想法的多样性不够，就容易陷入短期思维。如果你的目标是下周就做出 5k MRR，那做一个 AI 垂直产品确实是个好主意，但我不认为这样能帮你做出一个持久的生意。虽然我有点坚持这个看法，但如果我在 YC 的批次里，我也会很容易受到诱惑。更有意思的是，YC 的播客「The Light Cone」几乎每集都提倡做垂直 AI。

我原以为 YC 的无偏见策略是有效的，因为它注重多样性，但可能我错了。