GPT-4利用“心智理论”玩德州扑克等不完美信息博弈

与每个玩家都知道所有元素的完美信息游戏不同,不完美信息游戏模拟了不确定或不完整信息下决策的现实世界复杂性。 GPT-4 是在海量被动数据上训练的大型语言模型 (LLM) 的最新突破,以其知识检索和推理能力而闻名。

本文深入探讨了 GPT-4 学到的知识对于不完美信息博弈的适用性。

为了实现这一目标,我们引入了Suspicion-Agent,这是一种创新代理,它利用 GPT-4 的功能在不完美信息游戏中执行。
通过适当的提示工程来实现不同的功能,基于GPT-4的Suspicion-Agent在一系列不完善信息的卡牌游戏中表现出了卓越的适应性。
重要的是,GPT-4 显示出强大的高阶心理理论 (ToM) 能力,这意味着它可以理解他人并有意影响他人的行为。
利用这一点,我们设计了一种规划策略,使 GPT-4 能够胜任地对抗不同的对手,根据需要调整其游戏风格,同时只需要游戏规则和观察描述作为输入。
在实验中,我们定性地展示了 Suspicion-Agent 在三种不同的不完美信息游戏中的能力,然后在 Leduc Hold'em 中对其进行定量评估。 结果表明,无需任何专门的训练或示例,Suspicion-Agent 就有可能超越为不完美信息博弈设计的传统算法。 为了鼓励和培养社区内更深入的见解,我们公开了与游戏相关的数据。

08224207-2023-10-08T14:42:24.png
08224259-2023-10-08T14:43:16.png
论文:https://arxiv.org/abs/2309.17277
代码:https://github.com/CR-Gjx/Suspicion-Agent