GITM:自主学习解决任务的AI智能体
从围棋的 AlphaGo 到星际争霸 II 的 AlphaStar,再到 Dota2 的 OpenAI Five,这些超级智能体研究在越来越拟真和开放的虚拟环境中取得了一个个巨大的突破,现在通才 AI 智能体"Ghost in the Minecraft"(GITM)已经能够玩转《我的世界》游戏!
在全球最畅销的游戏《我的世界》Minecraft 中,我们可以看到生存、探索和创造等各种活动,无一不在紧密地模拟真实世界,《我的世界》好似一个缩小版的现实世界。包括 DeepMind、OpenAI 在内全球许多著名研究团队,都投入到相关 AI 智能体研究中,希望在其中寻求对真实世界的解答。
来自商汤、清华大学、上海人工智能实验室等机构的研究者们提出的能够自主学习解决任务的通才 AI 智能体 Ghost in the Minecraft (GITM),不但能够在《我的世界》中比以往所有智能体,都有更加优秀的表现,并大大减少训练投入。由此该研究在向通用人工智能(AGI)方向迈出了重要一步。通用人工智能(AGI)研究的目标是发展智能体能够在开放世界环境中像人一样的进行感知、理解、和交互。AGI 的研究可以为机器人和自动驾驶等产业带来巨大的突破和进步,推动人工智能技术在产业落地方面取得更大发展。
该智能体能够完全解锁《我的世界》主世界的整体科技树的 262 个物品(以往所有智能体方法包括 OpenAI 和 DeepMind 在内总共只解锁了 78 个)、在标准的 “获取钻石” 任务上将成功率大幅提升了 47.5%(从 OpenAI 提出的 VPT 方法的 20% 提升到 67.5%),而且仅需一个 CPU 节点两天就能完成训练,将与环境交互的所需的训练步数减小到了之前方法的万分之一,远远低于之前 OpenAI 提出的 VPT 方法所需的 6480 个 GPU 天或 DeepMind 提出的 DreamerV3 所需的 17 个 GPU 天。
项目主页:https://github.com/OpenGVLab/GITM
AI 也能应对开放世界,像人类一样生存,探索和创造!
通才 AI 智能体 "Ghost in the Minecraft"(GITM)玩转《我的世界》游戏,生存模式白手起家,拿到主世界的所有物品,挖钻石不在话下,还能制作附魔书!
"Ghost in the Minecraft"(GITM)
成功制造附魔书 —— 主世界科技树的最高级别产物
挖钻石不再是困难
GITM 面对各类地形、环境、白天黑夜场景,甚至遇到怪物也能自如应对
为什么是《我的世界》
在当前的人工智能研究中,我们越来越追求打造拥有通才能力的 AI 智能体。这些智能体被寄予厚望,希望它们能够掌握广泛的技能,适应各种环境变化,更深入地模拟和应对人类在复杂问题上的能力。
在全球最畅销的游戏《我的世界》中,我们可以看到生存、探索和创造等各种活动,无一不在紧密地模拟真实世界。《我的世界》好似一个缩小版的现实世界。研究者们的目标是开发一种能够在《我的世界》中攻克所有技术挑战的 AI 智能体,从而迈向构建一个具备自主学习和掌握整个真实世界技能的通用人工智能的方向。
然而,《我的世界》中的 AI 智能体们却面临着一种有趣的莫拉维克悖论:
一些对于人类而言相对困难的任务,例如下棋,对 AI 来说相对容易;而在《我的世界》这样的开放世界中与环境交互、进行规划和决策等对人类来说较为简单的事情,AI 却面临巨大挑战。
GITM 成功打破了这一悖论的限制,在复杂且类似于现实世界的环境中取得了重大突破。这为推动 AI 技术的进步以及构建更通用的 AI 智能体提供了新的可能性。
GITM 有多强
广泛的任务覆盖:GITM 在《我的世界》内主世界的所有技术挑战上实现了 100% 的任务覆盖率(成功解锁了完整的科技树),而此前所有智能体的总和只能覆盖 30%。
高任务成功率:在最受关注的 “获取钻石” 任务上,GITM 取得了 67.5% 的成功率,相比于目前最佳成绩(OpenAI VPT)提高了 + 47.5%。
极高的训练效率:令人惊喜的是,GITM 的训练效率也达到了新的高度:环境交互步数只需已有方法的万分之一,单一 CPU 节点训练 2 天即可完成,相比之前 OpenAI VPT 所需的 6480 个 GPU 天或 DeepMind DreamerV3 所需的 17 个 GPU 天,无疑是一个巨大的进步。
GITM 是如何搭建的
传统 RL 智能体的困难在于如何将极为复杂的任务映射到最底层的键盘鼠标操作。
GITM 打破传统以 RL 为基础的架构,采用大型语言模型(LLM)作为智能体核心的新范式。
GITM 主要由 LLM Decomposer、LLM Planner、LLM Interface 三个部分组成,逐步将复杂任务分解为子任务、结构化动作、直到最底层的键盘鼠标操作:
LLM Decomposer 利用外部知识,如互联网上的游戏知识库,将复杂任务分解为简单的子任务
LLM Planner 为每个子任务制规划一系列的结构化动作,并根据反馈信息调整规划,还能通过不断总结成功经验提升自己
LLM Interface 使用底层的键盘鼠标操作执行结构化动作,并在与环境交互的过程中获取观察信息
GITM 的高阶应用
GITM 可以进一步应用在《我的世界》更加复杂的任务中,比如生存所需的避难所、农田、铁傀儡,创造自动化设备所需的红石电路、进入下界所需的下界传送门等。这些任务展示了 GITM 强大的能力和可扩展性,使得智能体能够在《我的世界》中长时间生存、发展,探索更加高级的世界。
来源:https://www.thepaper.cn/newsDetail_forward_23250225