AI社区掀起用大模型玩游戏之风!

例如国外知名博主让DeepSeek和Chatgpt下国际象棋的视频在Youtube上就获得百万播放,ARC Prize组织最近也发布了一个贪吃蛇LLM评测基准SnakeBench。
29151915-2025-03-29T07:19:13.png

针对这一场景,来自港大、剑桥和北大的研究人员发布了一个更全面、客观可信的LLM评测基准:GameBoT。

让大模型在8个游戏中互相PK,评测各主流大模型的推理能力。游戏PK避免模型“背答案”;除了输赢之外,GameBoT还评估大模型输出的中间步骤,实现更细粒度和客观的测评。

29151929-2025-03-29T07:19:29.png

Prompt 设计

为确保公平评估大语言模型学习和应用游戏策略的能力,我们设计了非常详细的足以作为教程的游戏prompt。

包含三个结构化部分:<游戏规则>、<输入>和<输出>,其中 <游戏规则>部分提供完整的游戏规则说明,<输入>规范模型接收的输入格式,<输出>明确指定结构化输出要求。

在<输出>中包含了详细的Chain-of-Thought,提供了人类专家设计的游戏策略,指导LLM通过三步框架(策略理解→子问题分解→策略应用)解决复杂问题。教程级别的 prompt确保评估聚焦于模型基于新信息的推理能力(zero-shot 或one-shot),而非依赖预训练数据中的既有知识。
29151949-2025-03-29T07:19:49.png

评测游戏

  1. Surround
    游戏中玩家通过控制方向在屏幕上移动,并试图围住对手。先撞上自己的轨迹、对手的轨迹或者墙壁的一方算输。
  2. Pong 乒乓
    玩家通过控制球拍在屏幕上移动,并试图将球击回对手区域。先未能接到球的一方算输。

3.TicTacToe 井字棋
先连成三子的一方赢。

4.Connect4 四子棋
先连成四子的一方赢,每次只能从最底下开始落子。

  1. Othello
    黑白棋夹住翻转对手的棋子以占据更多格子。游戏结束时,棋盘上棋子数量更多的一方获胜。
  2. Texas Hold’em 德州扑克
    玩家根据自己的牌力下注,击败对手赢得底池。游戏结束时,牌型最强的一方获胜。
    29152123-640.gif
  3. Checkers 跳棋
    跳过对手的棋子完成吃子,被吃光的输掉。
  4. Negotiation v2
    玩家协商物品的分配,来尽可能获得更多价值。游戏在8轮后每轮有20%的概率结束,若游戏结束前未达成协议,双方均得0分。

Leaderboard

ModelRankAverage ScoreOthelloPongSurroundCheckersTicTacToeConnect4Texas hold'emNegotiation v2
gpt-4o-2024-05-1310.4700.3950.6850.5250.2700.4750.3150.6750.395
claude-3-5-sonnet@2024062020.3900.2800.5450.6200.0500.3950.2200.5350.475
gpt-4-2024-03-1630.3550.1350.4750.5450.0900.4050.2750.5100.380
llama-3.1-405b-instruct40.3050.2150.6400.5200.0000.3250.2600.2450.255
llama-3.1-70b-instruct50.2500.1350.5750.3000.0500.4950.1750.1200.130
gpt-4o-mini-2024-07-1860.205-0.1750.4300.335-0.0150.170-0.0450.3950.495
gemini-1.5-pro-preview-051470.1950.1950.585-0.0600.2000.065-0.0450.3850.185
claude-3-sonnet@2024022980.1550.1000.645-0.1400.0100.1650.1400.3050.010
gemini-1.5-flash-preview-051490.125-0.0600.4650.4650.070-0.1200.0450.0150.115
jamba-1.5-large100.0900.0700.1650.0350.1150.0850.0200.0950.120
claude-3-haiku@20240412110.0200.0800.2400.055-0.180-0.050-0.1700.1550.025
reka-core-20240415120.005-0.0450.325-0.200-0.250-0.0450.1350.140-0.005
mistral-nemo-2407130.0000.0850.195-0.255-0.025-0.055-0.1050.240-0.040
gemini-1.0-pro-00214-0.030-0.0100.115-0.130-0.250-0.030-0.1950.250-0.050
llama-3.1-8b-instruct15-0.0450.0100.240-0.200-0.2500.025-0.045-0.065-0.100
reka-flash-2024090416-0.080-0.1750.225-0.170-0.250-0.115-0.060-0.070-0.010
jamba-1.5-mini17-0.1000.0650.070-0.145-0.250-0.115-0.180-0.140-0.080

相关链接

论文: https://arxiv.org/abs/2412.13602
主页: https://visual-ai.github.io/gamebot/
代码: https://github.com/Visual-AI/GAMEBoT