RT-2：首个能控制机器人的视觉-语言-动作模型

作者: zhexuan

时间: 2023-07-30

阅读(1012)

本周五，谷歌 DeepMind 宣布推出 RT-2：全球第一个控制机器人的视觉-语言-动作（VLA）模型。RT-2让机器人拥有了类似ChatGPT的智能，不再需要复杂的指令，机器人也能直接操纵物品。这项技术对于机器人领域意味着一场革命，为机器人赋予了人工大脑。

RT-2的智能化程度

DeepMind的研究人员用机械臂展示了RT-2的智能化程度。机器人能够理解它们从未见过的物体，并且可以进行推理，例如将「已灭绝的动物」联系起来是一只「塑料恐龙玩偶」这样的复杂任务。

机器人还可以执行像ChatGPT一样的任务，比如把可乐罐给泰勒・斯威夫特。

RT-2的实现：

3.1 RT-2架构及训练过程：
RT-2基于视觉-语言模型（VLM）进行训练，利用了大型语言模型的研究进展，并将其与机器人数据相结合。这使得机器人能够分析更多信息并自行推断下一步的动作。

3.2 DeepMind造出了VLA模型：
RT-2建立在VLM基础上，并创造了视觉-语言-动作（VLA）模型。该模型可以从网络和机器人数据中学习，并将这些知识转化为机器人可以控制的通用指令。通过简单的方法，将机器人动作表示为文本字符串，并与Web规模的视觉-语言数据集一起进行训练，实现了机器人的动作控制。

实验：

研究人员对RT-2进行了一系列定性和定量实验。实验结果显示，RT-2在语义理解和基本推理方面的性能优于之前的版本RT-1和视觉预训练（VC-1）基线。RT-2保留了机器人在原始任务上的性能，并提高了在以前未见过场景中的性能。

RT-2的潜在应用

具有内置语言模型的RT-2机器人可以应用于多个领域，例如仓库管理、药品抓取以及家庭助理，比如折叠衣物、取出洗碗机里的物品、在房子周围收拾东西等。RT-2的问世可能会开启在有人环境下使用机器人的大门，拓展了机器人应用的广阔前景。

参考内容

https://www.deepmind.com/blog/rt-2-new-model-translates-vision-and-language-into-action
https://www.blog.google/technology/ai/google-deepmind-rt2-robotics-vla-model/
https://www.theverge.com/2023/7/28/23811109/google-smart-robot-generative-ai
https://www.nytimes.com/2023/07/28/technology/google-robots-ai.html
https://www.bilibili.com/video/BV1Uu4y1274k/

RT-2：首个能控制机器人的视觉-语言-动作模型

RT-2的智能化程度

RT-2的实现：

实验：

RT-2的潜在应用

参考内容

最新文章

分类

标签云

阅读排行榜

推荐排行榜

回复排行榜

最近回复

邮件订阅