复旦大学语言与视觉团队推出的 AgentGym 平台,打通了大语言模型智能体「数据采样、训练微调、自我进化、能力评测」全流程。基于该平台提出的 AgentEvol 算法,首次探索了通用智能体的自我进化能力,并在多项智能体任务上表现非凡,与 GPT-4、Claude 等 SOTA 模型比肩。

作者确定了推动智能体自我进化的「三大关键支柱」,这些支柱是研究的核心要素。

  • 多样化的环境和任务,允许智能体动态且全面地进行交互、训练,而不是被局限于某个孤立的环境。
  • 一个适当大小的轨迹数据集,帮助智能体配备基本的指令遵循能力和基础任务知识。
  • 一种有效且可扩展的进化算法,激发智能体在不同难度环境中的泛化能力。

17204942-2024-06-17T12:50:08.png
AgentGym 平台示意图。平台共涵盖了 14 个跨越不同类别的环境,每个环境都作为 HTTP 服务部署。客户端为智能体提供封装好的统一接口,便于与环境互动。通过 AgentEvol 方法,作者探索了智能体在不同环境和任务中的自我进化。此外,平台提供了测试集 AgentEval 对智能体进行全面的能力评估。

围绕这三大支柱,作者的研究工作体现在以下几个方面:

  • 「AgentGym」,一个包含 14 种具体环境,89 种具体任务类型的交互平台(图2),为大语言模型智能体训练提供支持。该平台基于 HTTP 服务,为不同环境提供了一个统一的 API 接口,支持轨迹采样、多轮交互、在线评估和实时反馈。
  • 「AgentEval」,一个具有挑战性的智能体测试基准。「AgentTraj」和「AgentTraj-L」,通过指令增强和众包 / SOTA 模型标注构建的专家轨迹数据集。经过格式统一和数据过滤,帮助智能体学习基本的复杂任务解决能力。
  • 「AgentEvol」,一种激发智能体跨环境自我进化的全新算法。该算法的动机在于,期望智能体在面对先前未见的任务和指令时进行自主探索,从新的经验中进行学习与优化。

AgentGym 平台,是一个全新的,支持大语言模型智能体轨迹采样、自我进化、能力评测的框架,特点是提供多样、实时、并发和统一格式的反馈。旨在帮助人工智能社区更便利地探索具备通用能力的 LLM-based 智能体。

论文:https://arxiv.org/abs/2406.04151
代码:https://github.com/WooooDyy/AgentGym

仅有一条评论

  1. altman

    赞一个