现代人工智能堆栈的未来正在决定之中,机器比以往任何时候都更有能力进行推理、创造和创意,而这些新能力正在推动企业重构其技术栈。虽然人工智能转型的早期感觉就像狂野的西部,但如今,构建者们正围绕基础设施、工具和方法进行融合。

本文分享了关于人工智能开发后期如何发展的一些看法,以及结合创建现代人工智能堆栈的核心基础架构组件来了解下未来十年可能将推动人工智能应用的新运行架构。

定义现代人工智能堆栈

2023 年,企业在现代人工智能堆栈上的花费预计超过 11 亿美元,这将成为生成式人工智能领域最大的新市场,也将为初创企业带来巨大商机。

我们将现代人工智能堆栈的关键层定义为:

  • 第一层:计算和基础模型。计算和基础模型层包含基础模型本身,以及用于训练、微调、优化和最终部署模型的基础设施。
  • 第二层:数据。数据层包含将 LLM 与企业数据系统中可能存在的正确上下文连接起来的基础设施,核心组件包括数据预处理、ETL 和数据管道,以及矢量数据库、元数据存储和上下文缓存等数据库。
  • 第三层:部署。部署层包含帮助开发人员管理和协调人工智能应用的工具,其中包括代理框架、提示管理以及模型路由和协调。
  • 第四层:可观察性。现代人工智能堆栈的最后一层包含有助于监控运行时 LLM 行为和防范威胁的解决方案,包括 LLM 可观察性和安全解决方案的新类别。 

26182755-2024-03-26T10:27:53.png
新的人工智能成熟度曲线

如今,定义现代人工智能堆栈的市场结构和技术都在迅速发展,不过这些领域的关键组成部分和领导者已经崭露头角,这些早期获胜者的出现说明了新的人工智能成熟度曲线--与传统的机器学习开发周期截然不同。
26182808-2024-03-26T10:28:09.png
在 LLM 之前,ML 的开发是线性的、"模型向前"的。想要构建人工智能应用的团队需要从模型入手--这往往需要数月繁琐的数据收集、特征工程和训练运行,还需要一个博士团队,然后才能将系统生产为面向客户的最终产品。

LLM 翻转了剧本,将人工智能开发转向 "产品前瞻",使没有 ML 专业知识的团队也能将人工智能融入其产品中。现在,任何人都可以访问 OpenAI 或 Anthropic API,即时利用世界上最强大的模型,企业实际上可以从产品而不是模型入手。

将简单的应用程序接口(API)调用整合到产品中非常容易,但随着人工智能堆栈的成熟,开发团队希望通过企业或客户的特定数据来定制人工智能体验。团队从检索增强生成(RAG)等提示级优化开始,但最终会转向模型级优化,如模型路由、微调或量化,这主要是出于性能、成本和延迟等方面的考虑。

在过去的一年里,人工智能构建者集体从传统的 ML 发展到新的人工智能成熟度曲线,在曲线的每个阶段都锁定了新的构建模块,作为生产型人工智能系统的重要基础设施:

  • 第一阶段:仅限闭源模型。在 2023 年的早期,资金和工程方面的努力主要集中在基础模型本身,仅在其上进行相对简单的定制(如提示工程、少量学习)。领先的闭源模型提供商,如 OpenAI和 Anthropic*等领先的闭源模型提供商在这一阶段获得了早期的牵引力,巩固了它们作为现代人工智能堆栈最早赢家的地位。    
  • 第二阶段:检索-增强生成。在新成熟度曲线的下一阶段,企业将重点放在数据层,将其作为人工智能应用工作的重心(而不是模型层)。RAG 的普及尤其需要更强大的数据层基础设施,如向量数据库 Pinecone*和数据预处理引擎 Unstructured。大多数企业和初创公司目前正处于这一阶段。
  • 第三阶段:混合模型部署。第三阶段是人工智能成熟度曲线的最新演进阶段,Typeface*和Descript等领先公司开始利用开源模型来补充其封闭源模型的使用,以完成大容量、特定领域的任务。在此背景下,Modal、 Baseten和 Fireworks等模型部署供应商正开始获得显著的发展。
  • 第四阶段及以后:定制模型。虽然很少有公司已经达到建立自己的模型的复杂程度或需要建立自己的模型,但在未来的道路上,我们会看到希望深入到堆栈的大型企业的用例。为他们提供支持的公司包括Predibase和Lamini等公司将为他们提供支持,这些公司提供了高效内存微调工具(包括 4 位量化、QLoRA 和内存分页/卸载)。

新人工智能基础设施栈的四大设计原则

人工智能革命不仅刺激了对新基础设施堆栈的需求,还积极重塑了企业对待应用程序开发、研发支出和团队组成的方式。在下一节中,我们将概述新模式的四个关键设计原则。

1.大部分支出用于推理与培训
在 LLM 革命的早期,似乎每家公司都有可能在某一天训练出自己的大型语言模型,像 BloombergGPT这样的模型被誉为企业和特定领域 LLM 的典范。

预期中的大潮从未出现。相反,Menlo Ventures 最近进行的企业人工智能调查显示,几乎 95% 的人工智能支出都用于运行时与预训练。只有 Anthropic 等最大的基础模型提供商才会将这一比例翻转过来。在应用层,即使是像 Writer这样复杂的人工智能构建者,也要将 80% 以上的计算花费在推理上,而不是训练上。

2.我们生活在一个多模式的世界    
单一模型无法 "统治一切"。根据 Menlo 的企业人工智能报告,60% 的企业使用多个模型,并将提示路由到性能最好的模型。这种多模型方法消除了对单一模型的依赖,提供了更高的可控性,并降低了成本。

3.RAG 是主要的架构方法
LLM 是出色的推理引擎,但针对特定领域和企业的知识有限,为了创造有用的人工智能体验,团队正在快速部署知识增强技术--从检索增强生成(RAG)开始。    
26182843-2024-03-26T10:28:42.png
RAG 通过像 Pinecone 这样的向量数据库,为基本模型赋予了企业特定的 "内存"。这种技术远远超越了其他定制技术,如微调、低秩适配或适配器,这些技术目前主要在模型层而不是数据层工作。展望未来,我们预计这一趋势将继续下去,而数据平面的新部分--包括数据预处理引擎(如 Cleanlab*)和 ETL 管道(如 Unstructured)--将在运行时架构中凝聚在一起。

4.所有开发人员现在都是人工智能开发人员
全球有 3000 万开发人员、30 万 ML 工程师,而只有 3 万 ML 研究人员。对于那些在 ML 领域最前沿进行创新的人来说,我们的参考资料估计,全世界可能只有 50 名研究人员知道如何构建 GPT-4 或 Claude 2 级系统。    

面对这些现实,好消息是,过去需要多年基础研究和复杂的人工智能专业知识才能完成的任务,现在主流开发人员可以在强大的预训练 LLM 的基础上,在几天或几周内完成数据系统的工程设计。

Salesforce 的 Einstein GPT(用于销售的生成式人工智能副驾驶)和 Intuit Assist(生成式人工智能财务助理)等产品主要由精干的人工智能工程师团队打造:传统的全栈工程师在现代人工智能堆栈的数据层工作,而不是数据科学家、ML 工程师,甚至是在模型层工作的 ML 研究人员。

下一步行动

现代人工智能堆栈正在迅速发展,展望其在今后的持续进步,我们看到了一些新的发展:

1.新一代人工智能应用试行更先进的 RAG
RAG 是当今的王者,但这并不是说这种方法没有问题。如今,许多实施方案仍在使用幼稚的嵌入和检索技术,包括基于标记数的文档分块以及低效的索引和排序算法。这些架构往往存在以下问题:

  • 上下文割裂。在许多学术基准中,正确答案都在文档的一个地方,但在生产代码库中几乎从来没有出现过这种情况    
  • 幻觉。LLMs 在多步骤推理任务中的表现和准确性下降
  • 实体稀缺性。在单次或零次检索的情况下,"稀疏检索"(如单词匹配算法)有时比基于嵌入的 "密集检索"效果更好
  • 检索效率低。高延迟和高成本

为了解决这些问题,下一代架构正在探索更先进的 RAG 应用,并融合了思维链推理、思维树推理等新技术、反思以及基于规则的检索。

2.小型模型在现代人工智能堆栈中占据更大份额
随着人工智能应用构建者提高其复杂性并更深入地关注现代人工智能堆栈,成熟度曲线的下一阶段将指向针对某些领域的微调、特定任务模型的扩散,而在这些领域,大型闭源模型被证明是笨重或昂贵的。在下一阶段,随着企业创建自己的特定任务模型,用于构建 ML 管道和微调的基础设施将变得至关重要,量化技术,如ggml等技术将帮助团队享受小型模型带来的全速提升。

3.可观测性和模型评估的新工具应运而生
在 2023 年的大部分时间里,日志记录和评估要么根本没有进行,要么由人工完成,要么以学术基准作为大多数企业应用的起点。我们的研究表明,将近 70% 的人工智能采用者正在使用人工审核输出作为其主要评估技术,这是因为风险很高:客户期待并理应获得高质量的产出,而企业担心幻觉会导致客户失去信任也是明智之举,因此可观察性和评估为新工具的开发提供了重要机会。我们已经看到了一些很有前途的新方法,如 Braintrust、Patronus、Log10和 AgentOps.    

4.架构向无服务器迈进
与企业数据系统的其他部分一样,我们看到现代人工智能堆栈也在逐步走向无服务器。在这里,我们将 "短暂机器"型无服务器(如 Lambda 函数)与真正的从零扩展到零的无服务器(如 Neon* 的 Postgres 架构)区分开来。

就后者而言,抽象化基础设施可使开发人员从运行应用程序的复杂操作中解脱出来,实现更快速的迭代,并使企业只需支付计算费用和可用性费用,从而享受显著的资源优化。无服务器范式将应用于现代人工智能堆栈的所有部分,Pinecone 已通过其最新的矢量计算架构采用了这种方法,Neon 对 Postgres 也采取了同样的做法、缓存以及用于推理的 Baseten 和 Modal。