Gemini 2.0:面向AI智能体时代的AI大模型
谷歌基于Gemini 2.0,发布了三个代理——包括对 Project Astra 的更新,旨在探索通用人工智能助手的未来功能;新 Project Mariner,它从浏览器开始探索人机交互的未来;以及 Jules,一个可以帮助开发人员的人工智能代码代理,以及其他的游戏代理、具身智能等。
1、Astra 项目:在现实世界中使用多模式理解的代理
使用 Gemini 2.0 构建的最新版本的改进包括:
- 更好的对话: Project Astra 现在能够使用多种语言和混合语言进行交谈,并且能够更好地理解口音和不常见的单词。
- 新工具用途:借助 Gemini 2.0,Project Astra 可以使用 Google 搜索、镜头和地图,使其作为您日常生活中的助手更加有用。
- 更好的记忆:我们改进了 Project Astra 的记忆能力,同时让您掌控一切。它现在拥有长达 10 分钟的会话记忆,可以记住您过去与其进行的更多对话,因此可以更好地为您量身定制。
- 改善延迟:借助新的流媒体功能和本机音频理解,代理可以以与人类对话相同的延迟理解语言。
谷歌正在努力将这些功能引入 Google 产品,例如Gemini应用、AI 助手,以及眼镜等其他设备。谷歌正开始将可信测试者计划扩展到更多人,其中包括一个即将开始在原型眼镜上测试 Project Astra 的小组。
2、Project Mariner:能帮你完成复杂任务的代理
Project Mariner 是一个使用 Gemini 2.0 构建的早期研究原型,旨在从浏览器开始探索人机交互的未来。作为研究原型,它能够理解和推理浏览器屏幕上的信息,包括像素和文本、代码、图像和表单等网络元素,然后通过实验性的 Chrome 扩展程序使用这些信息为您完成任务。
根据WebVoyager 基准进行评估,该基准测试代理在端到端真实世界网络任务上的性能,Project Mariner作为单一代理设置实现了 83.5% 的最佳工作结果。
虽然还为时过早,但 Mariner 项目表明,在浏览器中导航在技术上已经成为可能,尽管目前它完成任务并不总是准确且缓慢,但随着时间的推移,这种情况将迅速改善。
为了安全、负责地构建这一系统,谷歌正在积极研究新型风险和缓解措施,同时让人类参与其中。例如,Project Mariner 只能在浏览器的活动选项卡中键入、滚动或点击,并且它会在用户执行某些敏感操作(例如购买某物)之前要求用户进行最终确认。
值得信赖的测试人员现在开始使用实验性的 Chrome 扩展程序测试 Project Mariner,同时谷歌也开始与网络生态系统进行对话。
3、Jules:开发商的代理
Jules 是一款实验性的人工智能代码代理,可直接集成到 GitHub 工作流程中。它可以解决问题、制定计划并执行,所有这些都在开发人员的指导和监督下完成。这项工作是谷歌长期目标的一部分,即构建在所有领域(包括编码)中都有用的人工智能代理。
4、游戏和其他领域的代理
Google DeepMind长期以来 一直使用游戏来帮助 AI 模型更好地遵循规则、规划和逻辑。
例如,就在上周,谷歌推出了Genie 2,它可以从一张图片中创建无限多样的可玩 3D 世界。基于这一传统,谷歌使用 Gemini 2.0 构建了代理,可以在视频游戏的虚拟世界中导航。它可以仅根据屏幕上的动作推断游戏,并在实时对话中提供下一步操作的建议。
谷歌正在与 Supercell 等领先的游戏开发商合作,探索这些代理的工作方式,测试它们解释各种游戏规则和挑战的能力,从《部落冲突》等策略游戏到《Hay Day》等农场模拟器游戏。
除了充当虚拟游戏伙伴之外,这些代理甚至可以利用 Google 搜索为您提供网络上丰富的游戏知识。
除了探索虚拟世界中的代理能力外,谷歌还通过将 Gemini 2.0 的空间推理能力应用于机器人技术,试验可以在现实世界提供帮助的代理。