基于大型语言模型的Agent的兴起及其潜力
长期以来,人类一直在追求与人类水平相当或超过人类水平的人工智能,AI Agent被认为是这一追求的一种很有前途的载体。AI Agent是感知环境、做出决策和采取行动的人工实体。
由于大型语言模型(LLM)所展示的多功能和卓越的能力,它们被视为通用人工智能(AGI)的潜在火花,为构建通用AI Agent提供了希望。许多研究工作都利用LLM作为构建AI Agent的基础,并取得了重大进展。
在这个存储库中,我们对基于LLM的代理进行了系统而全面的调查,并列出了一些必读的论文。
具体来说,我们从基于LLM的代理的一般概念框架开始:包括三个主要组成部分:大脑、感知和行动,该框架可以根据不同的应用进行定制。随后,我们从单智能体场景、多智能体场景和人机协同三个方面探讨了基于LLM的智能体的广泛应用。接下来,我们深入研究代理人社会,探索基于LLM的代理人的行为和个性,他们形成社会时出现的社会现象,以及他们为人类社会提供的见解。最后,我们讨论了该领域内的一系列关键主题和悬而未决的问题。
LLM Agent发展史
从NLP走向AGI要经过几个阶段?
答案是五个,即语料库、互联网、感知、具身和社会属性。目前,大语言模型正处于第二阶段,具有互联网规模的文本输入和输出。
如果想要更进一步,就要为LLM赋予感知能力和行动能力。
接下来,如果这些具有感知和行动力的自主LLM Agent之间能够进行互动、通过协作解决更复杂的问题,或反应现实世界中的社会行为,它们就拥有了社会属性。
人类也可以参与AI Agent组成的社会。
以原神海灯节为例,上图中香菱和瑶瑶在厨房里筹备饭菜、胡桃和辛焱开演唱会进行表演,甘雨和刻晴在商量做灯笼的事宜。
玩家(主控)可以任选一个场景与AI Agent进行互动。
Agent的实际应用场景
这里主要介绍三种Agent的应用场景:单Agent部署、多Agent交互和人与Agent交互
单个Agent拥有多种能力,可以在各种应用方向上表现出优异的任务解决能力。
单Agent的应用被划分为三个层次:
- 首先是任务导向的部署中,Agent可以协助人类用户解决日常的基本任务,此时它们需要具备基本的指令理解和任务分解能力。根据现有的任务类型,代理的实际应用可分为模拟网络环境和模拟生活场景。
- 其次是在面向创新的开发中,Agent 展示了在科学领域进行自主探索的潜力。尽管来自专业领域的固有复杂性和训练数据的缺乏给代理构建带来阻碍,但目前已经在化学、材料、计算机等领域取得进展。
- 在面向生命周期的部署中,Agent具有不断探索、学习和利用新技能的能力,以确保能在开放世界中长期生存。以《我的世界》游戏为例,游戏中的生存挑战被认为是现实世界的缩影,已成为开发和测试代理综合能力的独特平台。
当多Agent进行互动时,它们可以通过合作或对抗性互动实现进步。
在合作互动中,Agent以无序或有序的方式进行协作,以实现共同目标。在对抗性互动中,代理以针锋相对的方式展开竞争,以提高各自的性能。
此外,在人-Agent 交互过程中,人类的反馈可以使 Agent 更高效、更安全地执行任务,同时 Agent 也可以为人类提供更好的服务。
人类与Agent的互动可以分为两种模式。
在指导者-执行者范式(左)中,人类提供指导或反馈,而代理则充当执行者。
在平等合作范式(右图)中,Agent 像人类一样,能够与人类进行移情对话,并参与非合作任务。
最后是由Agent组成的社会。
Agent的社会可以简单分为两个要素:Agent和环境。
在个体层面,Agent能够表现出计划、推理和反思等内化行为。它还表现出内在的人格特质,包括认知、情感和性格。
但一个代理可以和其他代理组成群体,并表现出群体行为,如合作。
在环境层面,无论是虚拟环境还是物理环境,包含人类行动者和所有可用资源,对于单个代理而言,其他代理也是环境的一部分。Agent 具有通过感知和行动与环境互动的能力。
地址:https://github.com/WooooDyy/LLM-Agent-Paper-List
论文:https://arxiv.org/pdf/2309.07864