生成式人工智能的行动o1
在生成式 AI 革命进入第二个年头时,研究正从「快速思考(System 1)」转向「慢速思考(System 2)」,也就是从迅速生成预训练结果转向推理过程中进行深度思考。这一转变为一系列全新的自主型应用程序打开了大门。
自我们发表《Generative AI: A Creative New World》一文以来,两年过去了,AI 生态系统已经发生了很大的变化,我们也对未来有了一些新的预测。
生成式 AI 市场的基础层已经趋于稳定,形成了由一些重要玩家和联盟主导的平衡态,包括 Microsoft/OpenAI、AWS/Anthropic、Meta 和 Google/DeepMind。现在,只有那些具备经济实力并能够获得巨额资本的玩家还在竞争中。虽然这场竞争还远未结束(而且仍然像博弈论中的游戏一样不断升级),但市场结构正在逐渐明朗化。可以预见,未来生成下一个 token 的成本会越来越低,数量会越来越多。
随着大规模语言模型(LLM)市场趋于稳定,下一个竞争前沿已经开始显现。人们的注意力正逐渐转向推理层的开发和扩展,这一层以「系统 2」思维为主导。受到 AlphaGo 等模型的启发,这个层面旨在让 AI 系统在推理过程中进行深思熟虑的推理和问题解决,而不仅仅是简单的模式匹配。同时,新的认知架构和用户界面也在改变这些推理能力如何与用户互动。
01 Strawberry 实现了模型新突破
那么,这些变化对 AI 市场的创业者意味着什么?对现有的软件公司又意味着什么?作为投资者,我们在哪一层看到生成式 AI 堆栈的最大回报潜力?
在我们最新的文章中,我们将探讨基础 LLM 层的整合如何为扩展这些更高阶的推理和自主能力奠定基础,并展望一代具有新型认知架构和用户界面的「杀手级应用」。
2024 年最重要的模型更新非 OpenAI 的 o1 莫属,它以前被称为 Q*,内部代号为 Strawberry。此次更新不仅是 OpenAI 重回模型质量榜首的有力宣言,也在现有的模型架构上做出了显著突破。更重要的是,这款模型首次展现了真正的通用推理能力,这一成就是通过推理阶段的计算实现的。
那具体意味着什么呢?目前的预训练模型主要依靠「训练阶段的计算」来在海量数据上进行下一个词的预测。规模的增加确实带来了基本的推理能力,但这种推理相对有限。设想一下,如果你能教会模型更直接地进行推理呢?这正是 Strawberry 所做的。当我们提到「推理时计算」时,指的是让模型在作答前进行「停下来思考」,这一过程需要更多的计算资源,因此被称为「推理时计算」。「停下来思考」本质上就是推理的过程。
02 AlphaGo 与 LLM 的结合 可能是 AI 真正思考的开端
那么,模型在停下来思考时到底在做什么呢?
我们可以回到 2016 年 3 月,地点是首尔。在那里发生了深度学习历史上具有划时代意义的时刻:AlphaGo 对战围棋传奇李世石。这不仅仅是一场 AI 对人类的胜利,也是 AI 开始展示超越简单模式模仿、真正「思考」的开端。
与早期的游戏 AI 系统(如深蓝)不同,AlphaGo 在预训练时不仅模仿了人类专家的决策,它还会在作答前「停下来思考」。在推理阶段,AlphaGo 会模拟多个未来可能的棋局,评估它们的得分,然后选择最优的应对方式。它使用的时间越多,表现越好。如果没有推理时计算,AlphaGo 无法击败顶尖的人类棋手,但随着推理时间的增加,它的表现逐步提升,最终超过了人类。
将这一概念移植到 LLM 上的难点在于如何构建价值函数,也就是如何对模型的响应进行评分。如果是围棋,模型可以通过模拟对局直到结束来确定最佳策略。如果是编程,可以测试代码的正确性。但如果是评估一篇文章的初稿、制定旅行计划或总结文件的关键术语,该如何打分呢?这就是推理在目前技术中的难点,也是 Strawberry 在逻辑领域(如编程、数学、科学)表现强大,但在较为开放的领域(如写作)表现相对不足的原因。
虽然 Strawberry 的具体实现细节仍是保密的,但核心思想是围绕模型生成的「思维链」进行强化学习。对这些思维链的审查表明,模型正在发生一些类似人类思维的突破性变化。例如,o1 展现了遇到瓶颈时能够「回头反思」的能力,这是一种推理时间扩展的自然结果。它还能像人类一样通过可视化思考来解决几何问题,甚至能够以超越人类的方式解决编程难题。
此外,还有许多新的研究方向正在推动推理时计算的发展,例如计算奖励函数的新方法、缩小生成器与验证器之间差距的新途径。研究团队正在不断改进模型的推理能力。换句话说,深度强化学习再次成为焦点,并为全新的推理层奠定了基础。
03 系统 1 vs 系统 2
思维 AI 研究正进入一个全新的阶段,从预训练的「本能反应」(「系统 1」)到深度推理(「系统 2」)的飞跃,成为下一个突破点。如今,AI 需要的不仅仅是记住知识,而是能够在作出决策前停下来思考,评估信息,进行实时的推理。
预训练可以看作是「系统 1」的过程。无论是像 AlphaGo 那样,通过数百万盘围棋对局数据训练,还是像 LLM 那样,用海量互联网文本进行预训练,其核心都是模仿模式——无论是模仿人类的棋局还是语言模式。然而,模仿虽然强大,但并非真正的推理,它在应对复杂且未知的问题时表现有限,尤其是样本外的情境。
这就是「系统 2」思维的重要性所在,也是目前 AI 研究的重点。当模型「停下来思考」时,它并非简单地复述过去的经验或模式,而是生成一系列可能的方案,考虑不同结果,并基于逻辑推理作出决策。
对于许多简单任务来说,「系统 1」已经足够。例如,正如 Noam Brown 在我们最新一期《Training Data》中提到的,花更多时间思考不丹的首都是什么并不会有帮助——你要么知道答案,要么不知道。在这种情况下,快速的模式识别和记忆完全足够。
但是,当面对更复杂的问题时,比如数学和生物学上的重大突破,简单的本能反应已经不够。这样的进展需要深度思考、创造性地解决问题,最重要的是需要时间。同样,对于 AI 来说,处理这些高难度的、有意义的问题,必须超越快速的「样本内」响应,花时间去进行深度推理,这也是推动人类进步的关键。
04 新的 Scaling Law:推理竞赛已开启
推理时代的竞赛开始 o1 论文最关键的发现是,AI 推理层面有了一条新的扩展法则。
预训练 LLMs 遵循的扩展法则已经被广泛理解:投入越多的计算资源和数据,模型的表现就越好。
而 o1 论文则揭示了另一个全新的扩展维度:你赋予模型的推理时间(或称「测试时间」)越多,模型的推理能力就越强。
当模型可以连续思考数小时、数天甚至数十年时,会发生什么?我们能解决黎曼假设吗?我们能找到阿西莫夫所提的终极问题的答案吗?
这一变革将把我们从依赖庞大预训练集群的时代,带入推理云的世界——这些云环境能够根据任务复杂度灵活调整计算能力。
05 不会出现一个模型统治的局面
当 OpenAI、Anthropic、Google 和 Meta 继续扩展推理层,开发出越来越强大的推理机器时,未来会如何?我们会走向「一个模型统治所有」的局面吗?
生成式 AI 市场早期曾有一个假设:某个单一的模型公司将变得极其强大,足以整合所有其他应用。然而,到目前为止,这一预测有两点是错误的。
首先,模型层依然存在激烈的竞争,最前沿的技术不断被超越。虽然有人可能通过自我博弈,实现模型的持续自我改进,并因此引发「突飞」,但目前我们还没有看到这样的迹象。相反,模型层的竞争如刀尖上的较量,自从上次开发者大会以来,GPT-4 每个 token 的价格下降了 98%。
其次,除了 ChatGPT 外,模型尚未在应用层掀起巨大的波澜。现实世界充满复杂性。顶尖的研究人员并没有兴趣去了解每个垂直行业的端到端工作流程的繁琐细节。他们更倾向于停留在 API 这一层,这既有吸引力,也更加经济合理。而开发者则可以处理现实世界的复杂性。对应用层来说,这是个利好消息。
06 混乱的现实世界: 定制认知架构
作为科学家,规划并执行目标的方式与作为软件工程师时截然不同。即便是软件工程师,在不同公司中工作方式也会大不相同。
尽管研究实验室不断推动通用推理的极限,我们依然需要特定领域和应用场景下的推理来交付有效的 AI 代理。现实世界的复杂性要求大量特定领域和应用场景的推理,而这些推理无法通过通用模型高效实现。
输入认知架构,或者说您的系统如何思考:代码流程和模型交互如何接收用户输入并执行操作或生成响应。
例如,在 Factory 机器人的案例中,他们的每个「机器人」产品都具有自定义认知架构,可以模仿人类解决特定任务的思维方式,例如审查拉取请求或编写和执行迁移计划以将服务从一个后端更新到另一个后端。Factory 机器人将分解所有依赖关系,提出相关的代码更改,添加单元测试并让人类进行审查。然后在批准后,在开发环境中对所有文件运行更改,如果所有测试都通过,则合并代码。就像人类可能会做的那样——在一组离散任务中,而不是一个通用的黑盒答案中。
07 套壳应用证明了自己
想象一下,你想在人工智能领域创业。
你瞄准的是堆栈的哪一层?想在基础设施上竞争吗?祝你击败 NVIDIA 和超大规模企业。想在模型上竞争吗?祝你击败 OpenAI 和马克·扎克伯格。想在应用程序上竞争吗?祝你击败企业 IT 和全球系统集成商。哦。等等。这个听起来确实很可行!
基础模型很神奇,但也很混乱。主流企业无法处理黑匣子、幻觉和笨拙的工作流程。消费者盯着空白的输入框,不知道该问什么。这些都是应用层的机会。
两年前,许多应用层公司被嘲笑为「只是 GPT-3 上的套壳」。如今,这些套壳被证明是构建持久价值的唯一可靠方法之一。最初的「wrappers(套壳)」已经演变成「认知架构」。
应用层 AI 公司不仅仅是基础模型之上的 UI。远非如此。它们拥有复杂的认知架构,通常包括多个基础模型,顶部有某种路由机制、用于 RAG 的矢量和/或图形数据库、确保合规性的护栏,以及模仿人类思考工作流程推理方式的应用程序逻辑。
08 SaaS:Service as a Software
云计算的转型是软件即服务。软件公司成为云服务提供商。这是一个价值 3500 亿美元的机会。
由于 Agent 推理,人工智能转型是服务即软件。软件公司将劳动力转化为软件。这意味着可寻址市场不是软件市场,而是以万亿美元计的服务市场。
Sierra 就是一个很好的例子。B2C 公司将 Sierra 集成到他们的网站上,负责与客户交流。Sierra 的工作是解决客户问题,它按每次解决问题的数量来收费,这里并不存在「按席位收费」的概念。你有一个需要完成的任务,Sierra 完成了这个任务,获得相应的报酬。
对许多 AI 公司而言,这就是他们的「北极星」。Sierra 的优势在于,当它无法解决问题时,能优雅地将问题转交给人工处理(即升级到人工客服),但并非所有公司都有这样的幸运。现在出现的趋势是,首先将 AI 作为辅助驾驶(human-in-the-loop)部署,并通过这些使用机会逐步积累经验,最后实现全自动化部署(无人工参与)。GitHub Copilot 就是一个典型案例。
09 新一批 Agent App 出现
随着生成式 AI 推理能力的提升,一类全新的自主型应用开始涌现。
这些应用层公司的形态是怎样的呢?有趣的是,它们与传统的云计算公司看起来有所不同:
- 云计算公司主要针对软件利润池,而 AI 公司则瞄准服务利润池。
- 云计算公司通过按席位收费,而 AI 公司按成果收费。
- 云计算公司倾向于无缝的自下而上分发,而 AI 公司则越来越多地采用自上而下的高接触、高信任交付模式。
我们看到,在知识经济的各个领域,一批新兴的自主应用正快速涌现。以下是一些例子:
- Harvey:AI 律师
- Glean:AI 办公助手
- Factory:AI 软件工程师
- Abridge:AI 医疗记录助手
- XBOW:AI 渗透测试员
- Sierra:AI 客户支持代理
通过大幅降低这些服务的边际成本(与推理成本的急剧下降同步),这些自主型应用正在不断扩展,并创造出全新的市场。
举个例子,XBOW 正在开发 AI 渗透测试员。「渗透测试」是模拟的网络攻击,旨在帮助公司评估其安全系统。在生成式 AI 出现之前,企业只会在特定情况下(例如为了满足合规要求)雇佣渗透测试员,因为人工渗透测试十分昂贵,这是一项需要高度专业技能的人工工作。然而,XBOW 展示了其基于最新推理 LLM 的自动渗透测试,其性能与最优秀的人类渗透测试员相媲美。这不仅大大扩大了渗透测试的市场规模,还为各种规模的公司提供了持续渗透测试的可能性。
10 这对 SaaS 生态意味着什么?
今年早些时候,我们与有限合伙人讨论过,他们最关心的问题是:「AI 的转型是否会摧毁现有的云计算公司?」
最初,我们的默认回答是「不会」。在初创企业和大公司之间的竞争中,通常是初创企业在构建分销渠道,而 incumbents(现有大公司)则专注于优化产品。这场竞争的关键在于,初创公司是否能在 incumbents 拿出酷产品之前,吸引足够多的用户。鉴于生成式 AI 的核心技术基础模型对初创公司和大公司都是开放的,并且 incumbents 本身就拥有数据和分销优势,因此我们认为,大公司不会受到太大冲击。初创企业的机会并不是要取代大公司,而是瞄准那些可以自动化的工作领域。
然而,现在我们不再那么确定了。正如前文所述,认知架构带来了巨大的工程挑战。将模型的基础能力转化为成熟的、可靠的端到端解决方案,可能比我们想象的更为复杂。我们是否低估了「AI 原生」的巨大潜力?
二十年前,传统软件公司曾对 SaaS 的崛起不屑一顾。「这有什么大不了的?我们也可以自己运行服务器,通过互联网提供这些服务!」从表面上看,SaaS 确实概念简单,但其引发的却是一场业务模式的全面变革。从工程、产品和设计(EPD)部门的瀑布式开发转变为敏捷开发和 A/B 测试,到市场策略(GTM)从自上而下的企业销售转向自下而上的产品驱动增长(PLG),再到商业模式从高价格的销售转向基于使用的定价模式,这场变革彻底颠覆了传统软件公司的运营方式。最终,只有极少数的传统公司成功完成了这次转型。
如果 AI 带来的变革与 SaaS 类似呢?AI 的机会是否不仅仅是「销售工作」,还有可能取代现有的软件?
看看 Day.ai,我们已经见到了未来的雏形。Day 是一个 AI 原生的 CRM 系统。过去,系统集成商通过为 Salesforce 定制化配置,赚取了数十亿美元。然而,Day 只需接入你的电子邮件、日历,再加上一页简单的问卷回答,就能自动生成一个完全适合你业务的 CRM 系统。虽然它目前还没有所有的高级功能,但它完全自动化、无需人工干预的特性,已经让许多用户开始转向它。
11 投资领域的新趋势
作为投资者,我们的重点放在哪里?资金在流向哪些方向?以下是我们的一些简要分析。
- 基础设施
这是超大规模企业的主战场,主要由博弈论行为驱动,而非微观经济因素。对风险投资者来说,这不是一个理想的投资领域。 - 模型
这是超大规模企业和金融投资者的领域。超大规模企业通过投资模型,将资产负债表中的资金转化为损益表中的收益,最终这些资金会通过计算收入回流到他们的云业务。金融投资者则往往被「科学震撼」的偏见所影响。虽然这些模型很酷,团队也非常令人敬佩,但微观经济学却被忽略了。 - 开发者工具和基础设施软件
这一领域对战略投资者的吸引力较小,但对风险投资者而言更有前景。在云计算转型时期,大约有 15 家年收入超过 10 亿美元的公司诞生在这一层。我们预计 AI 转型期间也会有类似的情况发生。 - 应用程序
对风险投资来说,这是最令人感兴趣的一层。在云转型期间,大约有 20 家应用层公司达到了 10 亿美元以上的年收入;在移动转型期间,也有约 20 家类似的公司诞生。我们认为,在 AI 转型中也会出现同样的趋势。
12 结束语
在生成式 AI 的下一个阶段,我们预计推理研发的成果将快速且深入地渗透到应用层。过去,很多认知架构依赖于巧妙的「解锁」技术;而随着这些能力逐渐深度嵌入到模型中,自主应用程序的复杂性和稳健性将会迅速提升。
在研究实验室中,推理和推理时计算将继续成为未来的重要议题。随着新的 Scaling Law 的出现,新的竞赛已经开始。但在特定领域中,获取真实世界的数据并构建领域和应用特定的认知架构仍然是一个巨大的挑战。这意味着,在解决现实世界中多样化问题时,「最后一公里」的应用提供商可能更具优势。
展望未来,多 Agent 系统,如 Factory 的「机器人」,可能会成为建模推理和社会学习过程的主流方式。一旦 AI 能够执行工作,我们将能组建团队,让「工人」完成更多任务。
我们所期待的,是生成式 AI 的「第 37 步」时刻——就像 AlphaGo 在与李世石对战的第二局中出人意料的那一步棋。当一个通用 AI 系统展现出超越人类的思考和决策时,那一刻便会到来。这并不意味着 AI 将「觉醒」(AlphaGo 并没有),而是 AI 在感知、推理和行动的模拟过程中,能够以全新的方式进行探索。这或许就是通用人工智能(AGI),但如果是这样,它并不会是单一的奇迹,而是技术发展的下一个阶段。