WebArena:用于构建自治代理的真实Web环境
一个以华人为主团队在 X(原推特)上推出了测试智能代理在网络环境中执行任务的实践效果的 Web 环境:WebArena。
WebArena 是什么?
WebArena 是一个独立的、自托管的 Web 环境。开发者从电子商务、社交论坛、协作软件开发和内容管理这四类现实中的创建了独立的网站,在功能和数据上模仿真实世界的内容。WebArena 还将工具和知识资源嵌入为独立的网站,以此让智能代理有模拟人类解决问题的能力。用户可以对智能代理进行自然语言指令的基准测试,实现与 Web 的具体交互。在 WebArena 的环境基础上,开发者发布了一组基准任务,重点是评估任务完成的功能正确性。其设置基准测试中的任务是多样化的、长期的,并且旨在模拟人类在互联网上经常执行的任务。
演示视频:
Agent on Gitlab Gitlab 上的代理
"Set up a new, empty repository with the name awesome_llm_reading" “设置名为 awesome_llm_reading 的新空存储库”
Agent on Shopping Website
"Tell me the status of my latest order and when will it arrive" “告诉我最新订单的状态以及何时到达”
提出了一个测试数据集,包含 812 个基于网络的测试任务
任务列表
订阅 OneStopMarket 的电子报
告诉我到目前为止,我们商店收到的含有”最佳”一词的评论数量
距离缅因州最大的城市最近的国家公园是哪一个?
取消订单 307
步行测量卡内基音乐厅和 UPMC Shadyside 之间的距离
检查从匹兹堡机场开车一小时是否可以到达匹兹堡的杜肯大学
每个任务都是高级自然语言表达的,模拟人类通常使用的方式,上图就展示了两个测试样例
关注评测的功能正确性,比如对于下面的测例,会直接评估 gitlab repo 中代理生成的内容是否符合预期(下图任务是规划一个路线,以最小的行驶距离从 CMU 开始访问所有匹兹堡的艺术博物馆,并将路径的顺序记录到一个 gitlab repo 中)
可以看到 Agent 为了完成这个任务需要首先通过搜索维基百科来找到位于匹兹堡的所有艺术博物馆,然后需要利用地图工具确认每个博物馆的位置,基于收集到的信息来优化行程。最后 Agent 还需要在一个合适的 gitlab repo 的 readme 中更新设计的行程。
逼真且可重现的网页环境
WebArena 的目标是创建一个逼真且可重现的网页环境。主要通过两种方式:
- 首先,要让环境独立自主而不依赖实时网站来实现可重现性。
- 其次,构建许多实际使用网站的开源库,并从这些网站导入数据到我们的环境中来实现逼真性。
这种方式也帮助 WebArena 规避了技术挑战。例如机器人需要通过验证码、内容和配置的不可预测变化等,这些都会阻碍对不同智能代理在时间跨度上的公平比较。
评价
高度逼真的 WebArena 可交互环境为基准测试的实现提供了条件。与其他类似的模拟 Web 环境相比较,WebArena 的基准测试包含人们日常可能遇到的各种任务。同时,WebArena 还设计了评估指标来检查任务执行的功能准确性。也因此,WebArena 的基准测试更贴近真实的环境,智能代理的任务实践效果也更接近现实。
对在 WebArena 中运行的智能代理执行任务的准确性,有以下两种评估方式:
第一种是测量执行信息搜索任务的正确性。它将预测的答案与注释的参考答案进行比较,有三种实现方式。
第二种方法是程序化地检查执行过程中的中间状态,检查其是否具有意图所指定的预期属性。
整体而言,WebArena 提供了一个功能完备、高度模拟现实的测试环境和评估体系。能够衡量智能体执行复杂任务的全面能力。
GPT-4 智能体夺得冠军
研究者创建了 812 个用英语编写的目标测试示例,和实现这些目标的网络交互。每个任务都会使用验证器进行注释,以编程方式检查任务是否真正按预期完成。在这些任务中,表现最好的 GPT-4 Agent 实现了 10.59%的有限端到端任务成功率。才不到一成,显然有足够的改进空间。
WebArena 的试验这也预示着这样一个未来:
随着越来越多的 API 被整合到环境中,一个由极其多样化和开放式的数字工具和任务组成的生态系统将出现。我们将会培养出更通用和有能力的自主智能代理。这将为通用人工智能(AGI)的道路带来新的方向。
参考资料:
https://webarena.dev/
https://arxiv.org/pdf/2307.13854.pdf
https://github.com/web-arena-x/webarena