OpenAI 新推出的 Deep Research 功能令人瞩目,但目前仅向订阅了 OpenAI 每月 200 美元 ChatGPT Pro 计划的用户提供。在该功能发布不到 24 小时后,来自人工智能开发平台 Hugging Face 的 5 名工程师,其中包括该公司联合创始人兼首席科学家 Thomas Wolf,表示他们打造出了 Deep Research 的免费开源版本。

该团队表示,Open Deep Research 能够自主浏览网页,滚动页面、处理文件,甚至利用数据进行计算。他们致力于改善体验,并已在 GitHub 上提供源代码以供检查和反馈。并且,Hugging Face 详细公开了 Open Deep Research 的完整开发过程。

与 OpenAI 的 Deep Research 以及谷歌依托 Gemini 打造的最早同名“Deep Research”(于去年 12 月首次发布,早于 OpenAI)类似,Hugging Face 的方案是为现有 AI 模型添加一套“智能体”框架,使其能够执行多步骤任务,例如在收集信息的同时构建报告、并最终展示给用户。

据该团队介绍, Open Deep Research 由一个人工智能模型(OpenAI 的 o1)和一个开源“代理框架”组成,后者可帮助该模型规划其分析并指导其使用搜索引擎等工具。该团队表示,“尽管众多优秀的大模型均以开源形式免费开放使用,但 OpenAI 并未透露太多有关 Deep Research 背后的代理框架的信息。因此,我们决定开始一项 24 小时的任务,以重现他们的结果,并在此过程中开源所需的框架!”

该团队要解决的对传统人工智能智能体系统的首要改进,是采用所谓的 “代码智能体”。其指出,让智能体用代码表达其行动有诸多优势,其中最显著的是,代码就是专门为表达复杂的行动序列而设计的。

根据 Roucher 的解释,Hugging Face 还重现了一个保证项目得以顺利运行的核心组件。他们使用 Hugging Face 的开源“smolagents”库占得先机,此库使用到所谓“编码智能体”而非基于 JSON 的智能体。这些编码智能体使用程序代码编写动作,据称这使其任务完成效率提高了 30%。如此一来,系统能够更加简洁地处理复杂的动作序列。

工具集方面,与其他开源 AI 应用一样,在外部贡献者的贡献和支持下,Open Deep Research 背后的开发人员不必将时间浪费在迭代设计身上,该团队借鉴了他人的工作成果,大大缩短了开发时长。虽然要达到最佳性能可能需要像 Operator 那样功能完备的网络浏览器交互,但目前为了初步验证概念,他们先从一个极其简单的基于文本的网络浏览器入手,并使用了用于读取多种文本文件格式的简易文本检查器。

这些工具取自微软研究院出色的 Magentic-One 智能体,该团队没有对其做太多改动,因为他们的目标是在尽可能降低复杂度的同时,获得尽可能高的性能。
如果没有现有 AI 模型充当其核心,AI 智能体根本无法发挥作用。目前,Open Deep Research 通过 API 站在了 OpenAI 旗下大语言模型及模拟推理模型的肩膀上。但除此之外,它也完全可以适应其他开放权重 AI 模型。其中的创新之处在于,Open Deep Research 的智能体结构可将所有内容整合在一起,并由 AI 模型自主完成研究任务。

来自 Hugging Face 并参与 Open Deep Research 项目的 Aymeric Roucher 对外透露了研究团队如何选择 AI 模型。“我们没有选择开放模型,因为研究发现封闭模型的效果更好。但我们会公开整个开发过程并展示代码。大家可以随意切换至任意其他模型,它支持完全开源的流程。”

Roucher 还补充说,“我尝试了多种大模型,包括 DeepSeek R1 和 o3-mini。单就本用例来看,o1 的效果最好。但随着后续启动 open-R1 计划,我们也会考虑用更好的开放模型取代 o1。”对于 o3-mini,该团队称,“它速度确实很快,但表现不如 o1 和 gpt - 4o。我想模型太小的话,应对艰巨任务还是不行。”谈到 DeepSeek R1,其表示,“它的表现不如 o1。这并非像许多大语言模型那样是因为 “笨”,更多是因为对框架指南的适配不足。所以我们在考虑通过微调来解决这个问题!”

虽然这套研究智能体的核心大模型或 SR 模型非常重要,但 Open Deep Research 表明构建正确的代理层才是关键,基准测试也证明多步骤代理方法大大提高了大语言模型的能力:OpenAI 的 GPT-4o 本体(无智能体代理框架)在 GAIA 基准测试中的平均得分为 29%,而 OpenAI Deep Research 则高达 67%。

值得注意的是,目前除 Open Deep Research 外,还有其他一些依赖于开源模型和工具的 OpenAI 深度研究工具 “复制品”,包括 node-DeepResearch 和 OpenDeepResearcher。但原版 Deep Research 由 o3 模型的一个版本提供支持,如果背后没有可与 o3 匹敌的模型支持,这些替代版可能无法与之相媲美。

在通用人工智能助手的基准测试 GAIA 上,Open Deep Research 获得了 54% 的准确率分数。相比之下,OpenAI 的深度研究工具得分是 67.36% 。

虽然此次重现的开源研究智能体的性能似乎还无法真正与 OpenAI 相媲美,但它的出现至少让更多开发者获得了自由研究并改进该技术的可能性。同时,Open Deep Research 项目也展现了研究界快速重现并公开分享专有 AI 功能的能力,这些功能以往只能从商业提供商处获取。

有网友直呼,“这意义重大!开源替代方案正是人工智能领域所需要的。考虑到开发时间线,在 GAIA 基准测试中能达到 55% 的成绩已经相当令人瞩目了 —— 很期待看到它后续的发展。”

Roucher 总结称,“我认为这次的基准测试结果对于解决难题具有巨大的指导意义。但在速度和用户体验方面,我们的方案在优化水平上仍无法与专有成果比肩。”据其介绍,Hugging Face 的下一步改进计划不仅包括支持更多文件格式以及基于视觉的网页浏览功能,还在尝试克隆 OpenAI Operator,其可以在网络浏览器环境中执行其他多种类型的任务(如查看计算机屏幕并控制鼠标 / 键盘输入等)。

开源项目地址:https://github.com/huggingface/smolagents/tree/main/examples/open_deep_research