AI-Agents引领人工智能革命
AI-Agents: 构建虚拟世界的新引擎与可能性
AI-Agents(智能体)话题的讨论热度在近期逐步提升,很大程度是因为大语言模型逐步成熟,比如GPT-4的发布,能够以此作为核心控制器来构建AI-Agents。大语言模型的潜力也因AI-Agents得到拓宽,生成电商文案、小说、程序不再是其终点,他还能作为一个强大的框架去解决通用问题。**另一方面是一批知名的AI-Agents项目发布,比如Stanford Smallville、Camel、BabyAGI、AutoGPT。近日,Product Hunt上已经有超过百个与AI-Agents相关的项目,他们展示了人工智能在各个领域的应用和发展。
AutoGPT到8月底已经在GitHub获得接近十五万颗星,并成为历史上星数增长最快的开源项目。一些AI-Agents已经可以在各个场景下实现端到端的功能,比如AutoCorp可以自主创建品牌广告和产品设计、GPTeam可以利用GPT-4创建多个代理并通过协作实现目标、GPT Researcher能够对任意给定的主题进行在线综合研究。这些项目的快速发展,显示出了人工智能技术在商业与个人应用场景下的潜力。
知名美剧《西部世界》讲述了逼真的人形机器人进入了人类社会。故事发生在美国西部拓荒主题公园——“西部世界”,游客在公园内可以与逼真的NPC机器人互动,探索“西部世界”的秘密。这些机器人由人工智能驱动,为游客提供最真实的体验。然而,随着一些机器人开始发生故障,继而觉醒出自我意识。
今年4月,斯坦福大学将《西部世界》变为可能,他们创造了由25名AI-Agents NPC构成的小镇,这些AI-Agents既拥有各自独立的生活,也参与彼此之间的社交活动。其研究中心发表了论文《Generative Agents: Interactive Simulacra of Human Behavior》,在其论文中提出了Generative Agents的概念,即模拟可信人类行为的计算软件AI-Agents,可广泛应用于沉浸式环境、人际沟通的排练空间和原型设计工具等交互式应用。换言之,这些AI-Agents可以执行类似人类的日常行为,比如起床后做早餐然后去上班,艺术家作画,作家写作。它们会形成独特的个人观点、互相注意到彼此举动、发起对话或者问候,有时候也会回忆过去并以此计划未来。
该论文提出了一种新的架构,该架构对大语言模型进行扩展,并使用自然语言存储AI-Agents人物的体验记录。随着时间的推移,这些记忆逐渐形成为更高级的思考能力,并用来规划他们未来的行为。
在这个模拟的小镇中,这些生成式AI-Agents会产生可信的个人和涌现的社交行为。比如,从用户指定的单一任务开始,即一个AI-Agent想要举办情人节聚会,AI-Agents们在接下来的时间里会自发的传播邀请、认识新朋友、互相约出参加聚会的日期,并协调在正确的时间一起出现在聚会上。
典型企业介绍
2.1 澜码科技
◎澜码科技成立于2023年,以让人人都能够设计自己的AI-Agents为愿景,致力于基于大语言模型打造新一代自动化平台。澜码科技是数据飞轮公司,基于底层的大语言模型,通过提供自动化平台,从而在效率场景下学习人们在PC/手机/会议等场景下的技能,建构出自己独特的多模态基础大模型。
◎ 产品介绍
2.2 波形智能
◎波形智能是一家专注于AI交互内容平台开发的公司,依托自主研发的模型,从工具端入手,逐步构建了覆盖娱乐产业全链条的AI交互内容平台。公司自主研发的AI创作工具具备多项显著特点,如内容丰富、交互性强、个性化、多模态等。这些特点恰好处于当前大型模型应用领域的"技术前沿",也就是说,这类应用无法仅通过调用GPT等大型模型的接口来实现。公司团队有一个共同的愿景和信念,希望借助AIGC技术,创制出更为优质的内容,为大众带来崭新的娱乐体验,满足人类需求的最高层次。
在组织架构层面,波形智能建立了一个兼具技术和商业知识的综合团队。核心团队中拥有多名专业NLP专家,能够独立训练端到端模型并不断积累数据来进行迭代改进。这支团队同时也具备强大的商业化能力。公司创始人兼CEO姜昱辰,毕业于浙江大学竺可桢学院,在苏黎世理工大学获得人工智能博士学位,师从知名学者Ryan Cotterell,专攻自然语言生成领域,包括LLM、长内容生成以及机器翻译。他曾在微软亚洲研究院从事大型语言模型的训练和推理工作。联合创始人兼COO余腾,曾担任美国上市公司掌门教育(ZME)的联合创始人兼营销高级副总裁。他拥有丰富的商业化经验、大规模团队管理经验和C端营销增长经验,负责公司整体的商业化和运营管理。
目前,波形智能凭借其与众多NLP产品差异化的技术——“交互式长文本生成”,成功研发了能够无限生成交互内容的产品。依靠核心团队所具备的全栈NLP大型模型开发能力,波形智能成功培训出了自家的"垂域交互式模型",并以此构筑起了其核心技术优势。近期,波形智能发布了题为《RecurrentGPT》的论文,详细描述了这一框架的初步解决方案。
◎ 产品介绍
2.3 CAMEL
◎CAMEL是一个致力于自主和交际AI-Agents研究的开源社区。该社区相信在大规模范围内研究这些代理可以为了解其行为、能力和潜在风险提供有价值的洞见。为了促进这一领域的研究,该社区提供、实施并支持各种类型的代理、任务、提示、模型、数据集和模拟环境。
CAMEL-AI.org,想要构建一个人类和AI共存的社会,好奇未来AI社会的运作机制,比如会产生怎么样的合作、竞争等组织形式、会有什么样的新的经济法律教育等系统、如何加速科学和工程的发展等等。
◎ 产品介绍
2.4 AutoAgents.ai(未来式智能)
◎AutoAgents.ai(未来式智能)是一家来自国内领先人工智能、云计算公司,长期工作在服务企业数字化、智能化的第一线。公司一方面研究前沿技术发展的趋势、应用、边界。另一方面探索对企业数智化转型的痛点、利好、困难的解决方案。公司的团队成员来自全球领先的人工智能和云计算公司,如阿里巴巴达摩院、腾讯、字节跳动、亚马逊AWS和谷歌,团队长期致力于推动企业数字化和智能化的发展,在大语言模型、多模态模型、自演进智能体、智能决策等领域有深厚技术积累。公司的目标是创造一种新的工作方式,即基于用户目标构建能够自动化完成复杂任务智能体,智能地进行任务的规划、分解,连接各种数据与应用,达成用户的目标。
◎ 产品介绍
AutoAgents.ai(未来式智能)的产品可以广泛应用企业服务的多个领域,比如智能化客服、以客户为中心的销售管理、以员工为中心的招聘管理、商业分析等场景。
2.5 言图智能
◎ 言图科技是一家专注于自然语言处理与知识图谱产品的高新技术企业,多年来深耕人工智能领域,利用先进的深度学习、强化学习、图神经网络等技术,为众多集团客户与政府客户,提供业务智能升级服务,大幅提高了客户的生产和经营效率。针对金融、保险、医疗、电商、国防科技等领域,言图科技不仅积累了丰富的行业数据与背景知识,更形成了一套独特的行业智能化升级解决方案,逐步成为了自然语言于知识图谱领域内的领跑者。
◎ 产品介绍
2.6 Robosell
◎ Robosell致力于在电商领域,构建能够持续推理、营销及变现的通用AI-Agents,进而通过自主代理(Autonomouse Agents)重塑行业工作流。公司利用预训练大语言模型中封装的知识生成一致的行动计划或可执行策略。随着自主代理能力的提升,AI-Agents将无缝管理在线商业活动的各个方面。
Robosell的创始团队是一支多元化且经验丰富的专业人士团队,汇集了来自Duix和Shopify的高级管理人员,以及一位专门研究多模式和强化学习的副教授。公司团队拥有丰富的国际经验,67%的创始成员曾在海外工作或学习,一半的成员持有硕士学位或更高学位。核心团队在人工智能领域拥有超过20年的经验,其中包括7年的深度研究,以及超过10年的电子商务经验。
◎ 产品介绍
2.7 Cortex
◎ Cortex背后的公司叫做Kinesys AI,目前团队7人全职,2名创始人均为华人,多人从斯坦福本硕毕业。创始人兼Nemo Yang,00后CEO,仅用了2年的时间就成功获得了佐治亚理工学院的的本硕学位。他以ML专业背景出身,曾在字节飞书和微软任职。
Kinesys AI是一家使用人工智能来革新软件开发的公司。他们探索了使开发更具可扩展性、可访问性和效率的LLMs应用。他们的新产品Cortex可以在您自己的数据上构建AI Co-pilot,使您的团队能够使用自己的私有数据源构建定制的AI助手。他们还在推进高效、注重隐私的大型语言模型。
◎ 产品介绍
2.8 Mindverse(心识宇宙)
◎ 心识宇宙(Mindverse.ai)是⼀家前沿AI技术初创公司,入选2022年未来科技城海内外高层次人才创新创业项目。⽬前有来⾃于清华、港⼤、伊利诺伊⼤学等校的具有⼗余年经验的世界级团队,并具有 Facebook,阿⾥巴巴,字节跳动,微软研究院等世界顶级科技企业和研究机构的⾼管背景。
公司的愿景是通过⼈⼯智能赋能虚拟⼈⼤脑,让虚拟⼈具有思维、意识和⼈格。虚拟⼈、虚拟分⾝是通往元宇宙的重要窗⼝。心识宇宙研发的新⼀代人工智能技术,能让虚拟人拥有感知现实、思维推理、自我意识和人格,成为元宇宙的原住民,陪伴、服务每⼀个用户。
◎ 产品介绍
MindOS,用户可以创建和分享自己的AI形象、将任务自动化、服务客户,可以激发用户前所未有的创造力。产品拥有无限的的可能性,从个性化虚拟co-pilot到开发销售助理或客户服务代表。MindOS比传统的聊天机器人更强大,比一般的LLM更个性化,比基于网络的自动化平台适应性更强。
2.9 数巅科技
◎ 数巅科技成立于2022年3月,是一家数据虚拟化引擎开发商,专注于打造企业级数据智能技术,数据虚拟化引擎是数巅科技的核心产品,该引擎可直接应用于企业已有大数据平台,对企业数仓进行快速赋能,让数仓可以持续提供优质的数据资产、高效绿色的计算能力、统一易用的数据服务连接。企业通过虚拟化引擎,可以对内部数据进行诊断、优化、统一,并与大模型进行无缝的交互数据服务。
◎ 产品介绍
2.10 dify
◎ Dify 是一个易用的 LLMOps 平台,基于不同的大型语言模型能力,让更多人可以简易地创建可持续运营的原生 AI 应用。Dify 提供多种类型应用的可视化编排,应用可开箱即用,也能以“后端即服务”的 API 提供服务。
团队的核心成员来自腾讯云的DevOps平台,成员在DevOps,developer tools, productivity tools的领域都拥有超过6年的研发经验。团队的使命是利用尖端技术作为基石,融入爱与幽默,让人工智能应用变得易于使用和开发。
◎ 产品介绍
模型支持:用户可以在 Dify 上选择基于不同模型的能力来开发 AI 应用。例如OpenAI,Anthropic,Hugging Face Hub,ChatGLM,文心一言等。
可视化编排 Prompt:通过界面化编写 prompt 并调试,只需几分钟即可发布一个 AI 应用。
文本 Embedding 处理(数据集):全自动完成文本预处理,使用用户的数据作为上下文,无需理解晦涩的概念和技术处理。支持 PDF、txt 等文件格式,支持从 Notion、网页、API 同步数据。
基于 API 开发:后端即服务。您可以直接访问网页应用,也可以接入 API 集成到您的应用中,无需关注复杂的后端架构和部署过程。
插件能力:Dify 「智聊」平台已支持网页浏览、Google 搜索、Wikipedia 查询等第一方插件,可在对话中实现联网搜索、分析网页内容、展示 AI 的推理过程。
团队 Workspace:团队成员可加入 Workspace 编辑、管理和使用团队内的 AI 应用。
数据标注与改进:可视化查阅 AI 应用日志并对数据进行改进标注,观测 AI 的推理过程,不断提高其性能。
什么是AI-Agents(智能体)
3.1 AI-Agents的四条规则
◎ 人工智能中的AI-Agents是自主执行任务的个体,它们能够感知环境、采取行动并实现特定目标。可以根据输入数据,如传感器数据、用户指令等做出决策和行动,以达到预定的目标。
AI-Agents系统可以应用于各个领域,如机器人、自动驾驶、语音助手和游戏等。无人驾驶汽车和Siri虚拟助理是人工智能中智能代理的例子。在大模型语境下,AI-Agents可以被理解为能够自主理解、规划、执行复杂任务的系统。因此,所有AI代理必须遵守主要的四条规则:
规则1:AI代理必须能够感知环境。
规则2:必须使用环境观测来做出决策。
规则3:决策应该导致行动。
规则4:AI代理采取的行动必须是理性的,理性的行动是指最大化性能并产生最佳正面结果的行动。
相较于ChatGPT的主要功能是生成回答,AI-Agents更像是人类的助手。他不仅能为使用者提供指导,还能实际帮助完成工作。作为人类与大语言模型(如GPT)之间的媒介,AI-Agents只需设定目标,就能模拟智能行为,自动创建任务、确定任务列表优先级、完成首要任务,并持续迭代,直至达成目标。
与传统人工智能不同,AI-Agents能够在没有人类干预的情况下独立运行。通过接入API,AI-Agents甚至可以浏览网页、使用应用程序、读写文件、完成信用卡付款等操作。简而言之,只需为AI-Agents设定目标,其余工作它将一并包办。简而言之,只需要给它一个目标,AI-Agents就能完成剩下的全部工作。
3.2 AI-Agents的类型
◎ 在人工智能中,有五种不同类型的Agents,它们被定义为具有不同的能力和智能水平:
1. 反射Agents:这些Agents只关注当前情况,忽略过去。它们使用事件-条件-行动规则进行响应。当用户发起一个事件时,Agents会按照预设条件和规则的任务列表进行操作,以产生预设的结果。
2. 基于模型的Agents:这些Agents像“反射Agents”一样选择行动,但他们更善于观察环境并得到综合观点。一个环境模型被编入内部系统,并纳入Agents的历史记录中。
3. 基于目标的Agents:这些Agents建立在“基于模型的Agents”存储的信息之上,通过使用关于期望结果和情况的目标信息或数据对其进行扩展。
4. 基于效用的Agents:这些Agents与“基于目标的Agents”类似,只是它们提供了额外的效用测量。这种测量根据期望的结果对每个可能的情况进行评级,并选择能够最大化结果的行动。评级标准的例子包括成功概率或所需资源数量等变量。
5. 学习Agents:这些Agents使用额外的“学习元素”来逐渐改善和了解环境。学习元素使用反馈来决定性能元素应该如何逐步得到改进。
两大发展方向
◎ Agents 大体上分为两大方向:自主代理(Autonomous Agents)和生成式智能体(Generative Agents)。
自主代理以Auto-GPT为代表,能够通过自然语言的需求描述自动化地执行各项任务,并达成目标结果。在这个协作关系中,自主代理服务于人类,具有明确的工具属性。
生成式智能体以斯坦福Westworld小镇为代表,具有类人格特征、自主决策能力以及长期记忆等特征,更偏向“原生性”概念的Agents。在这个协作关系中,Agents具有数字原生意义的社会关系,而不仅仅局限于作为服务于人的工具。
4.1 自主代理
◎ Auto-GPT如字面含义,是一个由GPT-4驱动的开源程序。Auto-GPT作为一个实验性的开源尝试,目的在于让GPT-完全自主执行任务。
Auto-GPT的核心目标是,通过自然语言交互实现自动化的任务执行。具体来说,用户可以用一句话的任务描述来启动Auto-GPT,并且Auto-GPT将自动化地生成、计划和执行任务,无需进一步的人工干预或提示。实现自主完成任务的核心逻辑在于借助强大的语言模型、具备任务规划能力、通过对任务进行细致的拆解和分析,以及自动完善任务的执行步骤。
在这个过程中,它还能在网络上搜索结果后反馈给语言模型,并进一步进行任务拆解与执行。形象地说,Auto-GPT在“自问自答”的过程中就把任务完成了,无需人类提供提示词。
与Auto-GPT相似的自主代理还有BabyAGI、MetaGPT等。
三个关键组件:规划、记忆、外部工具
**◎今年6月,OpenAI应用人工智能研究负责人翁丽莲在Github发表的文章LLM Powered Autonomous Agents中描述了如何使用大语言模型(LLM)作为自主代理系统的核心控制器。
文章中提到,自主代理系统需要具备以下三个关键组件:
规划:AI-Agents需要能够处理复杂任务并将其分解为更小、更易于处理的子目标。
记忆:AI-Agents需要能够记住过去的经验和知识,以便在处理新任务时进行参考和决策。
外部工具:AI-Agents需要能够利用外部工具(如搜索引擎、数学计算器等)来获取信息和解决问题。通过调取外部API,AI-Agents可以扩展其知识和能力的范围。
以BabyAGI的框架为例,它可以根据之前任务的结果和使用者预设的目标,自动创建、排序和执行新的任务。其流程可以被粗略分为五步:
- 用户给代理一个任务
- Thought:代理思考应该做什么
- Action / Action Input:代理决定采取什么操作(使用什么工具)以及应该给它什么输入
- Observation:代理观察工具的输出
- Repeat:重复执行 2-4 步,直到代理认为任务完成
◎ 首先,在初始化目标阶段,AI明确定义了其目标,即要解决的问题或实现的任务。接下来,AI进入任务创建阶段。在这个阶段,它会回顾其最近完成的一系列任务(如有),然后结合当前目标和这些任务的环境信息,生成一个新的任务列表。
一旦任务列表准备就绪,AI会进入任务执行阶段。在这里,它会自主地执行这些任务。执行后,AI将任务和执行结果存储在内部的矢量数据库中,以备后续参考。
AI还会进行反馈收集。这可以是从外部数据源获取的反馈,也可以是来自AI内部对话的反馈。这些反馈结果将成为下一次迭代的基础,用于系统的自适应过程。
接着,AI进入新任务生成阶段。根据刚刚收集到的反馈和内部对话,它会生成新的任务,以适应新信息和不断变化的需求。AI会审查其目标并重新确定任务列表的优先级,这是任务优先级阶段的内容。然后,AI会从任务优先列表中选择最靠前的任务,并按照之前定义的任务执行过程继续执行它们。
最后,AI会在连续循环中重复这一过程,不断调整自己以适应新信息、反馈和变化的需求。这个循环将使AI系统能够不断改进和自我优化,以更好地实现其目标。
4.2 生成式智能体
◎ 如前面提到的Stanford Smallville,该实验证实了AI-Agents架构中观察、规划和反思等组成部分对AI-Agents行为的可信度提供了至关重要的影响。生成智能体能够感知其周围环境,并将所有感知保存在一个名为记忆流(Memory Stream)的智能体体验的综合记录中。基于他们的感知,体系结构会检索相关记忆,并使用检索到的信息来确定下一步动作。同时,这些检索到的记忆也会被用于制定更长期的计划和进行更高层次的反思,两者都会被纳入记忆流中以供将来使用。
◎ 基于生成式智能体的架构和实验中的互动环境,它的系统必然会产生大量的记忆数据。记忆流则是一个全面记录了生成式智能体所有记忆的数据库。这个数据库包含了多个记忆对象的列表,每个对象都包括了自然语言描述、创建时间戳以及最近访问时间戳。
在这个数据库中,记忆流的基本元素是所谓的“观察”。这些观察是代理系统直接感知到的事件,它们可以是多种形式的。常见的观察包括代理自身执行的行为,或者生成式代理感知到其他生成式代理或非代理对象执行的行为。这些观察的记录和管理对于生成式代理的学习和决策过程至关重要。
价值创造
◎ 随着作为AI-Agents核心控制器的大语言模型成熟,以及行业对于应用场景的探索,AI-Agents有望应用在诸多领域。
1. 智能客服:AI-Agents可以通过自然语言处理和机器学习技术,模拟人类客服行为,感知客户情感并判断真实意图,提供个性化的建议和解答。提高用户购买意愿和满意度。
2. 智能搜索引擎:AI-Agents可以将原来的用户图形界面(GUI)转变为语言用户界面(LanguageUI),将获取搜索结果转变为帮助用户解决问题。
3. 营销自动化:AI-Agents可以帮助企业自动化营销流程,提高营销效率和效果。例如,AI-Agents可以根据用户的行为和偏好,自主选择营销策略,自动发送个性化的电子邮件和短信,提供个性化的产品推荐和服务。
4. 自动驾驶车辆:AI-Agents可以作为自动驾驶系统的一部分,通过感知环境和做出决策来控制车辆。它们能够利用长短期记忆来理解和预测交通行为,调用外部API获取地图和路况信息,并通过数据学习优化驾驶策略。
5. 智能机器人:AI-Agents可以作为机器人的“大脑”,通过接收传感器信息,理解环境并做出决策,从而执行各种任务,如家务、工业生产、服务行业等。它们能够通过规划、反思和细化来提高自身的智能和适应性。
6. 智能推荐系统:AI-Agents可以利用短期记忆理解用户当前的偏好和需求,同时结合长期记忆中的用户历史行为和兴趣,为个体提供定制化的推荐。它们还可以根据反馈和结果进行自我优化,以提高推荐的质量。
7. 金融和投资:AI-Agents可以承担投资顾问的一部分工作,通过分析大量金融数据,提出投资建议。它们可以利用短期记忆理解市场动态,利用长期记忆学习历史趋势,同时调用外部API获取实时信息,从而帮助投资者做出更明智的投资决策。
展望
◎ 我们可以将AI-Agents和自动驾驶进行类比,两者的目标都是替代人类完成任务。自动驾驶最终的目标是把人送到目的地,而机器的能力越强,人类需要做的事情就越少。AI-Agents相当于自动驾驶的L4阶段。然而,就像L4阶段一样,AI-Agents虽然容易想象和展示,却难以实现。因此,AI-Agents距离真正应用还有很多不确定性。
◎ 可以确定的是,未来随着大语言模型的持续提升和完善,AI-Agents将具备更强大的自动化完成任务的能力。随着积累的可用的训练数据集不断扩大,AI-Agents也将能够处理更加复杂的任务,从而提高其在各个领域的应用效果。此外,伴随着调用外部工具和数据的能力持续提升,AI-Agents也将能够更快速、更精准地获取信息和解决问题,满足不同任务的需求。
总之,整体的技术提升将促进AI-Agents更广泛地应用到商业实践中,AI-Agents也将在各个领域发挥越来越重要的作用。未来,我们将有望见证由AI-Agents驱动的大量创新性应用和解决方案,这些应用和解决方案将彻底改变并重塑以往的商业逻辑和生态。