3月13日,Google DeepMind通过官方博客和社交媒体发布了适用于3D虚拟环境的通用智能体(A generalist AI agent for 3D virtual environments),名字命名为“SIMA”。
15114348-2024-03-15T03:43:51.png
SIMA是第一个在广泛的3D虚拟环境和视频游戏中遵循自然语言指令的通用智能体(AI agent)。它能够完成类似于人类的任务,并且比仅在一种环境中训练的智能体表现得更好。据DeepMind透露,SIMA仅依赖于3D环境提供的图像和用户给出的自然语言指令。通过鼠标和键盘的输出,它在600项技能上进行评估,这些技能涵盖了导航和对象交互等领域——例如“向左转”或“砍倒树”。需要指出的是,DeepMind强调,与我们之前的工作不同,SIMA的目标不是实现高游戏分数。它旨在开发能够将抽象语言转化为有用行动的具身人工智能体。使用视频游戏作为沙盒提供了一种安全、易于访问的方式来测试它们。DeepMind表示,SIMA研究旨在构建更为通用的人工智能,能够在虚拟和物理环境中理解并安全地执行指令。这种可泛化的系统将使AI驱动的技术更加有用和直观。

为了让SIMA接触到更多游戏环境,开发团队表示目前已与八家游戏工作室合作,在九款不同的视频游戏上训练和测试了SIMA。当前的SIMA已在600个基本技能上进行了评估。基本操作、交互、使用菜单都会。简单的任务,10秒内可完成。各种场景都能适应:
15114514-640.gif
15114714-6402.gif


博客地址:https://deepmind.google/discover/blog/sima-generalist-ai-agent-for-3d-virtual-environments/
技术报告:https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/sima-generalist-ai-agent-for-3d-virtual-environments/Scaling%20Instructable%20Agents%20Across%20Many%20Simulated%20Worlds.pdf