AI Agent 的发展现状和技术难点
采访嘉宾|王元,美国五百强公司 高级数据科学家
后 AIGC 时代,AI Agent 无疑是一个新沸点。AI Agent(人工智能体)是一种能够感知环境、进行决策和执行动作的智能实体。不同于传统的人工智能,AI Agent 具备通过独立思考、调用工具去逐步完成给定目标的能力。
AI Agent 和大模型的区别在于,大模型与人类之间的交互是基于 Prompt 实现的,用户 Prompt 是否清晰明确会影响大模型回答的效果。而 AI Agent 的工作仅需给定一个目标,它就能够针对目标独立思考并做出行动。
从原理上说,AI Agent 的核心驱动力是大模型,在此基础上增加规划(Planning)、记忆(Memory)和工具使用(Tool Use)三个关键组件。那么,这种 AI Agent 到底是什么?该如何定义?AI Agent 的发展现状和技术难点是什么?将带来哪些机遇和变革?带着这些问题,我们邀请到了美国五百强公司高级数据科学家王元,与他一起探讨 AI Agent 的发展现状和技术难点。
以下为访谈实录,经编辑。
InfoQ:大家晚上好,欢迎来到 InfoQ《极客有约》的直播间。在本期直播中,我们有幸邀请到了美国 500 强公司的高级数据科学家,王元老师,为我们分享他的专业见解。今天的直播主题聚焦于解析 AI agent 的发展现状以及一些基础难点。现在,请让我们热烈欢迎王元老师,让他为大家做一下自我介绍。
王元: 大家好,我是王元,可能名字在一起是个“玩”字,所以对于流行的技术和项目,我一直充满了好奇心,探寻它们的原因有一部分是因为我的工作需要,另一部分则是源于我个人对这个领域的热爱。我已经从事人工智能领域将近 10 年了。近些年,AI 技术的迭代速度非常快,基本上每 3 到 5 年就经历一次全新的学习过程。我很高兴收到 QCon 主办方的邀请,能够在这个平台上与大家一同学习和交流。希望通过今天的分享,能够为大家带来一些有趣的见解。
InfoQ:王元老师也是我们QCon 大会上海站的特邀讲师,大家可以关注大会官网了解详情。我了解到王老师您您一直从事与 AI 相关的工作,想请问下您是如何看待最近两年 AIGC 引发的技术变革的?
王元: 首先要强调的是技术的变革非常大,特别是从去年到今年,大约一年到一年半的时间。从 AIGC 的角度来看,我认为可能存在两个重要的方向。首先是图生成和文生成,这涉及到从生成式模型如 VAE 一直发展到 GAN,现在又到了扩散模型,这个迭代速度非常快。
有一个具有历史意义的事件是在 2022 年 8 月,使用扩散模型创作的《太空歌剧院》,这件作品在美国科罗纳州博览会上获得了数字艺术创作一等奖。这是第一次 AI 创作达到如此专业水平。这展示了在图生成方向的扩展模型的潜力。
另一方面,从我们处理大语言模型的角度来看,可以想象从 2018 年开始,随着 Bert 模型和 Transformer 架构的出现,这个领域变得一发不可收拾。今年是一个巨大的改变,GPT-3.5 和 GPT-4 的出现使以 OpenAI 为代表的这种架构的模型一夜之间风靡全球。如果你曾使用过 OpenAI 的 ChatGPT 产品,你应该能够亲身感受到其智能水平的逐渐提高。这是一个巨大的变化,因为从以前的 Bert 模型这种双向的架构,到现在的 GPT 系列完全是解码器结构,而且越来越出色。从模型结构的角度来看,这也是一个巨大的变化。
除了这两个核心方向上的算法层面的变革,还有一些周边技术的变化,这些变化也是由大模型算法引起的。例如,向量数据库可能在大模型时代之前并不受重视,但现在对于从事数据库工作的人来说,向量数据库公司的融资额在今年显著增加。这表明 AIGC 带来的算法变革也引发了周边技术的演进,带来了许多新的机会。因此,我认为 AIGC 可能比我们想象的通用人工智能到来得更快。以前我们可能想象需要 30 年,但现在也许只需要十年,我们就能看到一些显著变化。
AI Agent 到底是什么?
InfoQ:向量数据库今年确实非常受关注,就连很多传统的数据库也增加了向量功能。那回到我们今天的话题 AI Agent,您能先跟我们聊聊到底什么是 AI Agent 吗?它的定义是什么?
王元:AI Agent 这项技术可以说是建立在大语言模型之上的一种全新技术。我们拥有了大语言模型之后,大家发现除了微调之外,还可以进行所谓的上下文学习。于是,引入了一个新的概念,即在处理问题时的“提示工程”。AI Agent 将这个概念更抽象地引入了一个新的维度。在学术前沿,通常会认为 Agent 是一个可以感知环境并能够基于当前场景做出决策的“智能体”。它是完全自动的,但我更愿意将其称为“agent framework”,即一个框架。这个框架是抽象的,能够根据具体的场景做出决策,然后执行,之后能够保持自主状态。
实际上,它将大语言模型从一个无状态的 API 转变为一个具有状态的工具。我举一个通俗易懂的例子,Agent 的本质是教大模型一些思考方法论,就好像你已经有了知识,但可能缺乏思考的方法。因此,Agent 通过一个框架传授方法论,这个框架具有一些具体模块,支持整个结构的运行。比如我们在初中、高中面临考试时需要在规定的时间内尽量回答问题,取得高分是我们的目标。在这里,大语言模型相当于提供具体问题的真实知识。
例如,当你遇到选择题时,读完题目后,你确实能够理解问题是什么,然后根据你的知识回答问题。这种思维方式可以被认为是大语言模型的正向思维。然而,在考试中我们可能会遇到一些复杂的问题,这些问题可能不容易立即解决。如果我们只有一种正向解题的思维方式,可能会陷入困境。这时,如果我们掌握了一些方法论,比如使用排除法,就能采用一种不同的思维方式,而非只依赖正向解题。通过排除法,我们或许能够确定答案。这就是方法论的一种体现。另外,当面临困难题时,我们可能会选择暂时跳过,转而解答后面的题目。这同样是一种方法论的应用,而这在正向思维中是不常见的。将这些思维方式以某种方式交给大语言模型后,它就拥有了这种思维的方法论。因为有了这些方法论,它在解决具体问题时可能比正向推导更高效,可以处理更广泛的问题。
InfoQ:这是否表明 AI Agent 更接近通用人工智能呢?
AI Agent 技术难点和应用场景
王元: 可以这么理解。AI Agent 将大语言模型提升到一个更高的水平,使其更接近我们所谓的通用人工智能的目标方向。
InfoQ:AI Agent 技术难点有哪些?
王元:AI Agent 作为一项相对新的技术,正在迅速发展。估计今年到目前为止,AI Agent 相关的论文可能已经超过 100 篇。尽管技术仍在快速发展,但目前在学术界和行业界已经形成了一个共识,即该技术主要包括四个基本模块。
第一个基本模块是角色设定。这意味着 AI Agent 希望在执行任务时,需要像人一样关注相关的背景信息和任务的要求。这可以被视为一种角色设定的数据组。
第二个模块是内存,用于获取信息,分为短期和长期内存。短期内存类似于模型的上下文,而长期内存则可能是通过向量数据库等外部来源获取的信息。
第三个模块是规划,它类似于人在解决问题时将其分解为子问题并逐个解决的方法。这可以被理解为一个专门的规划模块,用于将问题分解成可解决的子问题或子目标。
最后一个模块是执行,涉及到与环境的交互。这可以包括调用 API、调用其他模块或执行具体的动作,具体取决于任务的性质。
AI Agent 作为基于大语言模型的技术,面临一些难点。首要难点是底层技术,因为它继承了大语言模型的一些问题,比如“幻觉”问题。此外,对于底层基础模块的质量和性能,包括调用图像识别等模型,也会直接影响到上层建筑的性能。其次,Agnet 各个模块之间的交互和运行可能会产生许多中间结果和状态,这也带来了一些技术挑战。例如,处理中间结果的鲁棒性是一个问题,下层模块的性能和质量会直接影响上层模块的执行。最后,从应用层角度看,虽然 AI Agent 的能力得到了提升,但这也伴随着一些代价,比如用户与大语言模型进行多次交互可能引入时间和成本的问题等。
InfoQ:目前,AI Agent 的应用场景普遍集中在哪里,为什么是这些场景?
王元: 关于 AI Agent 的发展,我认为可以从两个场景来考虑。首先,如果我们关注用户场景,我们会发现有一些场景是具有交互性质的。例如,智能机器人和问答式交互,这与 AI Agent 的迭代性质天生匹配。在这种情境下,对于一些简单的任务,比如购买火车票或解决企业内部 IT 服务的问题,任务型机器人的应用效果较好。这种机器人专注于解决用户的具体任务,其场景相对较为集中。在这种简单场景下,使用 AI Agent 是明智的选择,并且相对容易维护。
另一种场景是用户感觉是线性执行的,例如文档智能类的应用。比如,一家支付公司要求用户在开户时提交身份证明,这是一个局限性的任务,不需要与用户进行过多的交互。在这种场景下,前台是单向的,但后台可以利用 AI Agent 更好地执行,这种情况相较于原有的流水线,AI Agnet 更为高效。因为在 AI Agent 中,有一些特定的分类方法,比如来自 Multipath Agent 的应用。Multipath Agent 采用多通道的方式,可以在多个阶段或通道上执行操作,而不仅仅是在单一样本上执行。这种多通道的设计有助于提高性能,因为它允许 Agent 在处理任务时进行更深入和全面的分析,通过多个步骤逐渐提炼信息,从而更有效地完成复杂的任务。
总的来说,对于这些场景,如果不考虑成本,特别是对延时要求相对较低的情况,AI Agent 是可以应用的。然而,在实际商业上应用时可能由于其成本较高,需要企业权衡利弊,综合考虑技术优势和商业投入产出比,确保使用 AI Agent 是合理而有吸引力的选择。
InfoQ:您提到 AI Agent 是一个相对较新的概念,对于如何评估这项技术的好坏,业内是否存在用于判断 AI Agent 效果的标准呢?
王元: 当评估 AI Agent 的效果时,可以从多个角度考虑,业界通常采用以下几种方法进行评测。每个公司或研究机构可能使用的方法略有不同,但总体来说有以下几个方向。
1. 主观评估: 在没有数据和人工标注的情况下,初始阶段可能需要进行主观评估。这包括请专家对 AI 的回答进行人工评分,或者将问题设计成图灵测试,让专家分辨 AI 生成的答案和人类的答案。这种评估方法以人类能力作为基线,但由于涉及人工评分,成本相对较高。
2. 端到端任务评估: 如果有一定的数据,可以基于端到端任务的指标来评估 AI Agent 的性能。例如,在文档智能领域,可以关注 OCR 提取的准确率等具体任务指标。这种方法侧重于任务的具体要求,更注重 AI Agent 在特定领域的表现。
3. 通用数据集评估: 目前常用的是一些通用数据集,如 ALFWorld、HotPotQA 和 HumanEval 等,用于测试 AI Agent 在决策、问答和编程等多个方向的性能。这种方法强调综合性能,但可能无法完全覆盖所有应用场景。
4. Benchmark 形式数据集评估: 新兴的评估方法包括一些综合多个领域的 Benchmark 形式的数据集,如清华发布的 AgentBench 等。这些数据集跨足多个领域,对 AI Agent 进行全面评测,使评估更具广度。
5. 工程层面评估: 从工程层面考虑,可以评估系统的稳健性,包括平均报错率、与底层 API 交互的次数等。这种评估方法关注 AI Agent 的工程实现,有助于了解系统的鲁棒性和效率。
6. 系统层面评估: 最终还需要考虑整个系统的性能,包括端到端的运行效率、时延、成本等。这可以通过评估相同任务下不同 AI Agent 的迭代次数、交互次数和整体耗时来实现。
综合而言,对 AI Agent 的评估可以从主观和客观两个方面进行,包括人工评估、数据指标评估、Benchmark 形式的全面评估以及工程和系统层面的性能评估。每个方向都有其独特的优势和适用场景,综合考虑可以更全面地了解 AI Agent 的效果。
InfoQ:目前业内一些观点认为,AI Agent 代表了生成式 AI 下一代的新技术栈。您对这一说法的理解是什么?您是否同意这个观点?
王元: 我认为,随着大模型的兴起,确实涌现了一些新的技术栈,而 AI Agent 是其中一个关键的技术栈,尽管并非唯一的。要想成功构建下一代技术,仅仅拥有 AI Agent 可能是不够的,因为它会受到许多周边技术栈的直接或间接影响,从而影响整个系统的性能。
我认为 AI Agent 最显著的特征之一是为群体智能提供了一种相对统一的机制。在人类社会中,一家公司可能拥有工程师、产品经理、财务、管理人员和法规专家等各种不同的角色,而每个角色都是不可或缺的。在 AI 领域,这种多样性可以通过设定不同的 AI Agent 角色来体现,它们可以进行交互,执行各种任务,实现群体智能。从这个角度来看,AI Agent 提供了一个桥梁。以前,想象如何实现群体智能可能没有一个较好的方式,但现在有了 AI Agent 的框架,似乎在群体智能方面提供了更多的可能性。基于 AI Agent 的思维方式和框架,我们可以更好地构建,这在实践和系统架构上都提供了许多手段。
AI Agent 未来趋势展望
InfoQ:根据您的观察,哪些行业目前在 AI Agent 商业化落地的大模型?
王元: 关于实际应用方面,我之前提到了一些简单场景的交互型任务型机器人。以前在智能客服领域,我们可能会手写有线状态机与用户进行交互,例如询问用户购买火车票的相关信息。在这样的典型场景中,用 AI Agent 替代以前的技术是可行的。
另一方面,对于一些线性场景,与用户没有直接交互但在背后有一些交互的情况,比如文档智能中的分类,我们也尝试使用大语言模型进行分类,然后结合 Agent 进行投票,以提高性能。
然而,在一些复杂场景,比如金融领域,想要通过 AI Agent 完全执行用户开户等业务流程可能受到一定限制。现在的技术可能只能做到辅助,而无法完全实现自动执行,尽管这样的应用在吸引力上有优势,因为减少了人的介入,但技术目前可能仍然无法做到完全的自动执行。
最后,成本也是一个考虑因素。目前,从个人角度看,AI 技术的成本可能仍然相对较高。
InfoQ:随着大模型多模态能力的提升,您认为多模态会为 Agent 带来什么?
王元: 多模态技术现在看来是一个不可避免的趋势。国内外都在积极研究多模态技术。从逻辑分析来看,当大语言模型底层的操作系统能力提升时,AI Agent 的能力也会相应提升。具体来说,多模态的原生大模型有几个关键点。
首先,如果现有原生的多模态大模型,AI Agent 内部执行多模态任务的复杂性将指数级下降,这意味着它的交互减少,出错的概率也会显著降低。原生大模型直接可以进行图像识别,而不需要调用单独的模型并将中间结果转换为文字,然后再让大模型能够理解其含义。
其次,从成本的角度来看,原生多模态大模型可以降低交互的繁杂性,从而降低了成本。尽管调用的多模态大模型可能是开源的,但开源模型并不代表没有成本。企业作为一个要托管多模型的实体,需要去管理这些模型的版本、生命周期等,这也是需要投入资金的。因此,拥有原生多模态大模型可以将管理多个模型的复杂性转变为管理一个模型,从而大幅降低运营成本。
InfoQ:AI Agent 的伦理和隐私问题如何解决?我们应该如何规范和引导 AI Agent 的发展?
王元: 我们看到行业的一些领军研究机构和研究人员,如深度学习领域的教父——Geoffrey Hinton 和杨立昆等,对 AI 的深度学习伦理问题进行了深入思考。在 AI Agent 的语境中,我认为这一问题变得更为重要。因为 AI Agent 赋予了一种基于回归的大模型方法论,其思维层次实际上得到了提升。随着思维层次的提高,我认为 AI 可能会产生自我意识等问题。在这方面,通过向 AI Agent 传达一些方法论,我们或许可以慢慢引导它的行为。
在引入 AI Agent 之后,我认为安全问题可能变得更加紧迫。因为 AI Agent 不仅仅是一个机器,它往往被赋予一些角色,这些角色能力需要监控。为了让 AI Agent 表现得更好,我们往往需要赋予它创建、执行和解决子任务的权限。这也是一个复杂的问题,因为在给定宏观任务后,AI Agent 可能在完全自主的情况下创建许多子任务,而这些子任务可能与宏观任务或指导发生冲突,难以监测。
在伦理方面,有了 AI Agent 之后,我们必须思考的一个问题是如何处理权限问题。给予 AI Agent 足够的权限使其更加智能,但这也带来了监测和控制的难题,这也是深度学习教父们所强调的问题。而在 AI Agent 这个层面上,这一问题可能变得更加复杂。虽然我对这个问题尚未有确切的解决方案,但我认为这是一个需要深入思考的事情。
InfoQ:未来,AI Agent 的发展趋势和前景是什么?您看好 AI Agent 未来的发展吗?您认为多久我们会迎来 AI Agent 的大规模落地?
王元: 我认为 AI Agent 未来的发展有几个前提条件。首先,如果底层的大语言模型在多模态方面取得显著进展,包括视觉和音频多模态,那么将这些技术应用于 AI Agent 会显著提升其性能。其次,如果我们将这些技术应用于机器人环境,由于机器人能够直接影响物理世界,这可能会带来巨大的潜力。
我个人对这项技术的前景感到乐观,我认为在未来 3 到 5 年内,我们可能会看到一个相对智能、具备方法论的 AI 体。当然,随着其变得越来越智能,关于 AI 监管、伦理和安全方面的讨论声音可能会不断增加。我认为这些问题可能会与大语言大模型的监管问题紧密相连,因为 AI Agent 毕竟是大语言模型的一个衍生和集成,监管方面可能需要在相同的程度上进行考虑。
InfoQ:对于想要进入这个领域的公司或个人来说,需要了解哪些相关知识?您有什么意见给到这些人吗?
王元: 技术的发展变得非常迅速。我还清楚记得 2018 年,NLP 领域的 Bert 模型发布,被认为是一个新的高峰。然而,到了 2022 年底和 2023 年,GPT 系列模型又创造了一个新的方向或者说一个分支。
我个人认为,无论是从事相关技术的老手还是新进者,每隔 3 到 5 年都会经历一次重大的重新学习过程。学习能力可能是最为宝贵的技能之一。具体而言,我建议关注一些行业中具有影响力的论坛,比如 QCon。这些论坛每年都会带给听众一些新的知识点,因为在行业内,每个同行都可能接触到一些新的技术点。通过这种大会的交流,这些新知识可以传播给整个行业,提供一个非常好的学习机会。
另外,欢迎大家参加我在 12 月份的 QCon 上的演讲。在演讲中,我将不仅仅讨论 AI Agent,还会探讨新一代所谓的 AI 2.0 技术,以及涉及的周边技术栈。对于进入这个行业的人,我的建议是要多读论文,因为论文代表着行业最新的研究方向。可能每周或每天阅读最新的论文,至少了解一下行业内大牛们在研究什么方向,这是一个非常好的实践。
InfoQ:我看到有观众提问:“现在已经在做大模型 +RPA 的公司已经在做 Agent 方面了,这类 RPA 公司会走在前面吗?”请王老师说说您的看法。
王元: 我认为结合大型模型和 AI Agent,在 RPA 应用方面具有巨大的前景。如果目前的大型模型能够在多模态方面取得更强的表现,那么在 RPA 领域将会更具竞争优势。