为弥补目前大型语言模型(LLMs)评估方法存在的缺陷,PTA studio 领衔的研究团队提出了一种基于任务的评估方法——AgentSims,即在模拟环境中让 LLMs 代理完成任务。相当于一个可以自己创建无限AI智能体的像素风小镇。

AgentSims,是一个开放式、自定义的沙盒评估基建设施。并且它还贴心地设置了专业开发者模式和普通用户模式,对那些不那么精通大模型和代码的研究人员还挺友好。
20214312-8.gif
具体操作中,研究人员可以通过GUI(交互式图形用户界面)添加AI角色、建筑物来设置不同的评估任务。此外,也可以通过少量代码来部署和测试新的支持机制,比如规划和记忆系统。并且可以设置角色的长期记忆,以及规划能力:
20214026-4.gif

能评估大模型能力的国产《西部世界》
从演示Demo来看,AgentSims建了一个虚拟的城镇环境,包含各种虚拟居民和建筑。这些都由用户自定义创建,最终组成沙盒,完成关于大模型能力的评估测试。比如语言理解能力、语言生成能力、推理能力、计划和规划能力、多轮对话能力、数据记忆与检索能力、自我调整能力什么的。

So,AgentSims到底要怎么玩儿呢?

首先来说创建AI角色。这个环节的自由度比较高,能给AI起名,设置性格、喜好人生任务等。图示中名叫John的AI角色,背后就依靠GPT-4来完成行动决策。根据性格设定,John还是非常乐于助人。再加上Demo给它设置的人生目标是“在小镇上勤奋工作”——于是,它就成为了小镇上的善良、勤恳打工人,
20214107-5.gif
创建每个AI角色时,都需要选择提供行为决策支持的大模型,可以是ChatGPT、GPT-4、LLaMA等等。研究团队在论文中提到,AgentSims可以用来重复测试同一模型,也可以在类似设置下,比较不同模型的表现。创建好角色后,这个AI几点几分干了什么事情,和谁说了话……每天的所有行为会被记录在档案中。它们彼此之间还会发生交互,甚至产生对话:
20214126-6.gif

评测过程中,不仅是AI和AI之间能够产生交互。如果有需要,研究人员自己还可以以“小镇镇长”等用户身份进入小镇,和智能体对话、互动,干预任务完成的过程。其次,构成沙箱环境虚拟城镇建筑和社区设置,也由用户自己创建。建筑物中的设备是预先设定好的,但可以在开发者版本中进行修改编辑,甚至调用外部API。从demo里可以看到,AgentSims提供的是GUI(交互式图形界面)。也就是说,用户不需要写代码,只需要关注任务设计的合理性。(这里提一句,为了像现实世界一样拥有咖啡厅、商店、餐厅,用户还需要花费一定金额。)
20214226-7.gif

值得一提的是,无论何时创建的AI角色和建筑,都处于同等地位,也就是说AI角色们可以对新加个体产生探索与交互。

官网: https://AgentSims.com
论文: https://arxiv.org/pdf/2308.04026.pdf
源码: https://github.com/py499372727/AgentSims