AI玩超级玛丽游戏
最近,AI 玩游戏的事儿在科技圈掀起了一阵热潮,就像是一场充满奇幻色彩的虚拟冒险。加利福尼亚大学圣地亚哥分校的 Hao 人工智能实验室搞了个超有意思的研究,让 AI 挑战经典游戏《超级马力欧兄弟》,这可太吸引人眼球啦!
这次研究选的游戏版本有点特别,不是 1985 年最初发布的那个,而是在模拟器里运行的。实验室专门开发了一个叫 GamingAgent 的框架,它就像 AI 和游戏之间的翻译官,负责传递关键信息。比如说,它会告诉 AI“附近有危险,赶紧向左跑或者跳起来躲避”,还会把游戏里的画面截图给 AI 看。AI 收到这些信息后,就会通过生成 Python 代码来操控马力欧,决定他的每一步行动。
比赛结果一出来,可真是几家欢喜几家愁。Anthropic 家的 Claude 3.7 在这场 AI 游戏大比拼里表现得超级亮眼,就像游戏世界里的超级明星,各种操作 6 到飞起;Claude 3.5 也不差,紧紧跟在后面。但谷歌的 Gemini 1.5 Pro 和 OpenAI 的 GPT-4o 就有点尴尬了,成绩不太理想。这是为啥呢?原来,像 OpenAI 的 o1 这类推理模型,在大多数普通测试里那都是学霸级别的,可一到实时游戏里就不行了。它们做决策的时候,就像个优柔寡断的人,要花好几秒来思考下一步该怎么走。但在《超级马力欧兄弟》这种争分夺秒的游戏里,一秒的差别就能决定生死,马力欧可能就从安全过关变成直接摔死了,结果自然天差地别。
再来说说这个神奇的 GamingAgent 框架,它简直就是个游戏魔法盒,不仅能让 AI 玩《超级马力欧兄弟》,还支持好多其他经典游戏,像 2048、俄罗斯方块这些。想用它来测试 AI 玩游戏也不难,按照步骤来就行。先把代码仓库克隆到自己电脑上,然后创建一个专门的虚拟环境,安装好需要的依赖包,再设置好各个 AI 模型对应的 API 密钥,就好比给 AI 们发好了入场券。一切准备就绪,就能让 AI 在不同游戏里大显身手啦。
就拿 2048 来说,这游戏就是通过合并数字方块来挑战高分的。在 GamingAgent 的帮助下,AI 玩起来也是有模有样。GPT-4o 和 Claude-3.7 在这个游戏里都有自己的一套策略。Claude-3.7 像是个布局大师,能把数字方块安排得井井有条,一路合并出高分;GPT-4o 也不甘示弱,每一步操作都经过深思熟虑,努力冲击更高的分数。还有俄罗斯方块,AI 玩的时候还得注意一些小细节。比如说得调整游戏速度,不然 AI 反应不过来;还要调整 AI 的视野,让它能看清游戏画面。Claude-3.7 在玩俄罗斯方块的时候,能快速分析方块的形状和下落位置,合理规划放置点,争取消除更多的行,实力相当不错。
不过,用游戏来测评 AI 这事儿,也引来了不少争议。有些专家就说了,游戏世界和现实世界比起来,太简单、太抽象了,而且还能给 AI 训练提供几乎无限的数据,这样测评出来的结果,真的能代表 AI 的真实水平吗?OpenAI 的研究科学家安德烈・卡帕西就曾感慨,现在都不知道该关注哪些 AI 指标了,都搞不清这些模型到底有多厉害。这也说明,虽然用游戏测评 AI 很有趣,能让我们看到 AI 的各种神奇操作,但要真正了解 AI 的性能,还得找更全面、更靠谱的方法。
不管怎么说,看着 AI 在游戏里蹦蹦跳跳、过关斩将,真的特别有意思。说不定以后,AI 真能成为游戏大神,还能帮我们解决现实生活里的各种难题呢!这场 AI 和游戏的奇妙碰撞,未来肯定还有更多精彩故事等着我们去发现。
地址:
https://x.com/haoailab
https://github.com/lmgame-org/GamingAgent