RT-2:首个能控制机器人的视觉-语言-动作模型
本周五,谷歌 DeepMind 宣布推出 RT-2:全球第一个控制机器人的视觉-语言-动作(VLA)模型。RT-2让机器人拥有了类似ChatGPT的智能,不再需要复杂的指令,机器人也能直接操纵物品。这项技术对于机器人领域意味着一场革命,为机器人赋予了人工大脑。
RT-2的智能化程度
DeepMind的研究人员用机械臂展示了RT-2的智能化程度。机器人能够理解它们从未见过的物体,并且可以进行推理,例如将「已灭绝的动物」联系起来是一只「塑料恐龙玩偶」这样的复杂任务。
机器人还可以执行像ChatGPT一样的任务,比如把可乐罐给泰勒・斯威夫特。
RT-2的实现:
3.1 RT-2架构及训练过程:
RT-2基于视觉-语言模型(VLM)进行训练,利用了大型语言模型的研究进展,并将其与机器人数据相结合。这使得机器人能够分析更多信息并自行推断下一步的动作。
3.2 DeepMind造出了VLA模型:
RT-2建立在VLM基础上,并创造了视觉-语言-动作(VLA)模型。该模型可以从网络和机器人数据中学习,并将这些知识转化为机器人可以控制的通用指令。通过简单的方法,将机器人动作表示为文本字符串,并与Web规模的视觉-语言数据集一起进行训练,实现了机器人的动作控制。
实验:
研究人员对RT-2进行了一系列定性和定量实验。实验结果显示,RT-2在语义理解和基本推理方面的性能优于之前的版本RT-1和视觉预训练(VC-1)基线。RT-2保留了机器人在原始任务上的性能,并提高了在以前未见过场景中的性能。
RT-2的潜在应用
具有内置语言模型的RT-2机器人可以应用于多个领域,例如仓库管理、药品抓取以及家庭助理,比如折叠衣物、取出洗碗机里的物品、在房子周围收拾东西等。RT-2的问世可能会开启在有人环境下使用机器人的大门,拓展了机器人应用的广阔前景。
参考内容
https://www.deepmind.com/blog/rt-2-new-model-translates-vision-and-language-into-action
https://www.blog.google/technology/ai/google-deepmind-rt2-robotics-vla-model/
https://www.theverge.com/2023/7/28/23811109/google-smart-robot-generative-ai
https://www.nytimes.com/2023/07/28/technology/google-robots-ai.html
https://www.bilibili.com/video/BV1Uu4y1274k/