AgentSims：用于大型语言模型评估的开源沙盒

作者: zhexuan

时间: 2023-08-20

阅读(1750)

为弥补目前大型语言模型（LLMs）评估方法存在的缺陷，PTA studio 领衔的研究团队提出了一种基于任务的评估方法——AgentSims，即在模拟环境中让 LLMs 代理完成任务。相当于一个可以自己创建无限AI智能体的像素风小镇。

AgentSims，是一个开放式、自定义的沙盒评估基建设施。并且它还贴心地设置了专业开发者模式和普通用户模式，对那些不那么精通大模型和代码的研究人员还挺友好。

具体操作中，研究人员可以通过GUI（交互式图形用户界面）添加AI角色、建筑物来设置不同的评估任务。此外，也可以通过少量代码来部署和测试新的支持机制，比如规划和记忆系统。并且可以设置角色的长期记忆，以及规划能力：

能评估大模型能力的国产《西部世界》
从演示Demo来看，AgentSims建了一个虚拟的城镇环境，包含各种虚拟居民和建筑。这些都由用户自定义创建，最终组成沙盒，完成关于大模型能力的评估测试。比如语言理解能力、语言生成能力、推理能力、计划和规划能力、多轮对话能力、数据记忆与检索能力、自我调整能力什么的。

So，AgentSims到底要怎么玩儿呢？

首先来说创建AI角色。这个环节的自由度比较高，能给AI起名，设置性格、喜好人生任务等。图示中名叫John的AI角色，背后就依靠GPT-4来完成行动决策。根据性格设定，John还是非常乐于助人。再加上Demo给它设置的人生目标是“在小镇上勤奋工作”——于是，它就成为了小镇上的善良、勤恳打工人，

创建每个AI角色时，都需要选择提供行为决策支持的大模型，可以是ChatGPT、GPT-4、LLaMA等等。研究团队在论文中提到，AgentSims可以用来重复测试同一模型，也可以在类似设置下，比较不同模型的表现。创建好角色后，这个AI几点几分干了什么事情，和谁说了话……每天的所有行为会被记录在档案中。它们彼此之间还会发生交互，甚至产生对话：

评测过程中，不仅是AI和AI之间能够产生交互。如果有需要，研究人员自己还可以以“小镇镇长”等用户身份进入小镇，和智能体对话、互动，干预任务完成的过程。其次，构成沙箱环境虚拟城镇建筑和社区设置，也由用户自己创建。建筑物中的设备是预先设定好的，但可以在开发者版本中进行修改编辑，甚至调用外部API。从demo里可以看到，AgentSims提供的是GUI（交互式图形界面）。也就是说，用户不需要写代码，只需要关注任务设计的合理性。（这里提一句，为了像现实世界一样拥有咖啡厅、商店、餐厅，用户还需要花费一定金额。）

值得一提的是，无论何时创建的AI角色和建筑，都处于同等地位，也就是说AI角色们可以对新加个体产生探索与交互。

官网: https://AgentSims.com
论文: https://arxiv.org/pdf/2308.04026.pdf
源码: https://github.com/py499372727/AgentSims

AgentSims：用于大型语言模型评估的开源沙盒

最新文章

分类

标签云

阅读排行榜

推荐排行榜

回复排行榜

最近回复

邮件订阅