Gemini 2.0：面向AI智能体时代的AI大模型

谷歌基于Gemini 2.0，发布了三个代理——包括对 Project Astra 的更新，旨在探索通用人工智能助手的未来功能；新 Project Mariner，它从浏览器开始探索人机交互的未来；以及 Jules，一个可以帮助开发人员的人工智能代码代理，以及其他的游戏代理、具身智能等。

使用 Gemini 2.0 构建的最新版本的改进包括：

更好的对话： Project Astra 现在能够使用多种语言和混合语言进行交谈，并且能够更好地理解口音和不常见的单词。
新工具用途：借助 Gemini 2.0，Project Astra 可以使用 Google 搜索、镜头和地图，使其作为您日常生活中的助手更加有用。
更好的记忆：我们改进了 Project Astra 的记忆能力，同时让您掌控一切。它现在拥有长达 10 分钟的会话记忆，可以记住您过去与其进行的更多对话，因此可以更好地为您量身定制。
改善延迟：借助新的流媒体功能和本机音频理解，代理可以以与人类对话相同的延迟理解语言。

谷歌正在努力将这些功能引入 Google 产品，例如Gemini应用、AI 助手，以及眼镜等其他设备。谷歌正开始将可信测试者计划扩展到更多人，其中包括一个即将开始在原型眼镜上测试 Project Astra 的小组。

Project Mariner 是一个使用 Gemini 2.0 构建的早期研究原型，旨在从浏览器开始探索人机交互的未来。作为研究原型，它能够理解和推理浏览器屏幕上的信息，包括像素和文本、代码、图像和表单等网络元素，然后通过实验性的 Chrome 扩展程序使用这些信息为您完成任务。

根据WebVoyager 基准进行评估，该基准测试代理在端到端真实世界网络任务上的性能，Project Mariner作为单一代理设置实现了 83.5% 的最佳工作结果。

虽然还为时过早，但 Mariner 项目表明，在浏览器中导航在技术上已经成为可能，尽管目前它完成任务并不总是准确且缓慢，但随着时间的推移，这种情况将迅速改善。

为了安全、负责地构建这一系统，谷歌正在积极研究新型风险和缓解措施，同时让人类参与其中。例如，Project Mariner 只能在浏览器的活动选项卡中键入、滚动或点击，并且它会在用户执行某些敏感操作（例如购买某物）之前要求用户进行最终确认。

值得信赖的测试人员现在开始使用实验性的 Chrome 扩展程序测试 Project Mariner，同时谷歌也开始与网络生态系统进行对话。

Jules 是一款实验性的人工智能代码代理，可直接集成到 GitHub 工作流程中。它可以解决问题、制定计划并执行，所有这些都在开发人员的指导和监督下完成。这项工作是谷歌长期目标的一部分，即构建在所有领域（包括编码）中都有用的人工智能代理。

Google DeepMind长期以来一直使用游戏来帮助 AI 模型更好地遵循规则、规划和逻辑。

例如，就在上周，谷歌推出了Genie 2，它可以从一张图片中创建无限多样的可玩 3D 世界。基于这一传统，谷歌使用 Gemini 2.0 构建了代理，可以在视频游戏的虚拟世界中导航。它可以仅根据屏幕上的动作推断游戏，并在实时对话中提供下一步操作的建议。

谷歌正在与 Supercell 等领先的游戏开发商合作，探索这些代理的工作方式，测试它们解释各种游戏规则和挑战的能力，从《部落冲突》等策略游戏到《Hay Day》等农场模拟器游戏。

除了充当虚拟游戏伙伴之外，这些代理甚至可以利用 Google 搜索为您提供网络上丰富的游戏知识。

除了探索虚拟世界中的代理能力外，谷歌还通过将 Gemini 2.0 的空间推理能力应用于机器人技术，试验可以在现实世界提供帮助的代理。