17款大模型PK八款棋牌游戏
AI社区掀起用大模型玩游戏之风!
例如国外知名博主让DeepSeek和Chatgpt下国际象棋的视频在Youtube上就获得百万播放,ARC Prize组织最近也发布了一个贪吃蛇LLM评测基准SnakeBench。
针对这一场景,来自港大、剑桥和北大的研究人员发布了一个更全面、客观可信的LLM评测基准:GameBoT。
让大模型在8个游戏中互相PK,评测各主流大模型的推理能力。游戏PK避免模型“背答案”;除了输赢之外,GameBoT还评估大模型输出的中间步骤,实现更细粒度和客观的测评。
Prompt 设计
为确保公平评估大语言模型学习和应用游戏策略的能力,我们设计了非常详细的足以作为教程的游戏prompt。
包含三个结构化部分:<游戏规则>、<输入>和<输出>,其中 <游戏规则>部分提供完整的游戏规则说明,<输入>规范模型接收的输入格式,<输出>明确指定结构化输出要求。
在<输出>中包含了详细的Chain-of-Thought,提供了人类专家设计的游戏策略,指导LLM通过三步框架(策略理解→子问题分解→策略应用)解决复杂问题。教程级别的 prompt确保评估聚焦于模型基于新信息的推理能力(zero-shot 或one-shot),而非依赖预训练数据中的既有知识。
评测游戏
- Surround
游戏中玩家通过控制方向在屏幕上移动,并试图围住对手。先撞上自己的轨迹、对手的轨迹或者墙壁的一方算输。 - Pong 乒乓
玩家通过控制球拍在屏幕上移动,并试图将球击回对手区域。先未能接到球的一方算输。
3.TicTacToe 井字棋
先连成三子的一方赢。
4.Connect4 四子棋
先连成四子的一方赢,每次只能从最底下开始落子。
- Othello
黑白棋夹住翻转对手的棋子以占据更多格子。游戏结束时,棋盘上棋子数量更多的一方获胜。 - Texas Hold’em 德州扑克
玩家根据自己的牌力下注,击败对手赢得底池。游戏结束时,牌型最强的一方获胜。 - Checkers 跳棋
跳过对手的棋子完成吃子,被吃光的输掉。 - Negotiation v2
玩家协商物品的分配,来尽可能获得更多价值。游戏在8轮后每轮有20%的概率结束,若游戏结束前未达成协议,双方均得0分。
Leaderboard
Model | Rank | Average Score | Othello | Pong | Surround | Checkers | TicTacToe | Connect4 | Texas hold'em | Negotiation v2 |
---|---|---|---|---|---|---|---|---|---|---|
gpt-4o-2024-05-13 | 1 | 0.470 | 0.395 | 0.685 | 0.525 | 0.270 | 0.475 | 0.315 | 0.675 | 0.395 |
claude-3-5-sonnet@20240620 | 2 | 0.390 | 0.280 | 0.545 | 0.620 | 0.050 | 0.395 | 0.220 | 0.535 | 0.475 |
gpt-4-2024-03-16 | 3 | 0.355 | 0.135 | 0.475 | 0.545 | 0.090 | 0.405 | 0.275 | 0.510 | 0.380 |
llama-3.1-405b-instruct | 4 | 0.305 | 0.215 | 0.640 | 0.520 | 0.000 | 0.325 | 0.260 | 0.245 | 0.255 |
llama-3.1-70b-instruct | 5 | 0.250 | 0.135 | 0.575 | 0.300 | 0.050 | 0.495 | 0.175 | 0.120 | 0.130 |
gpt-4o-mini-2024-07-18 | 6 | 0.205 | -0.175 | 0.430 | 0.335 | -0.015 | 0.170 | -0.045 | 0.395 | 0.495 |
gemini-1.5-pro-preview-0514 | 7 | 0.195 | 0.195 | 0.585 | -0.060 | 0.200 | 0.065 | -0.045 | 0.385 | 0.185 |
claude-3-sonnet@20240229 | 8 | 0.155 | 0.100 | 0.645 | -0.140 | 0.010 | 0.165 | 0.140 | 0.305 | 0.010 |
gemini-1.5-flash-preview-0514 | 9 | 0.125 | -0.060 | 0.465 | 0.465 | 0.070 | -0.120 | 0.045 | 0.015 | 0.115 |
jamba-1.5-large | 10 | 0.090 | 0.070 | 0.165 | 0.035 | 0.115 | 0.085 | 0.020 | 0.095 | 0.120 |
claude-3-haiku@20240412 | 11 | 0.020 | 0.080 | 0.240 | 0.055 | -0.180 | -0.050 | -0.170 | 0.155 | 0.025 |
reka-core-20240415 | 12 | 0.005 | -0.045 | 0.325 | -0.200 | -0.250 | -0.045 | 0.135 | 0.140 | -0.005 |
mistral-nemo-2407 | 13 | 0.000 | 0.085 | 0.195 | -0.255 | -0.025 | -0.055 | -0.105 | 0.240 | -0.040 |
gemini-1.0-pro-002 | 14 | -0.030 | -0.010 | 0.115 | -0.130 | -0.250 | -0.030 | -0.195 | 0.250 | -0.050 |
llama-3.1-8b-instruct | 15 | -0.045 | 0.010 | 0.240 | -0.200 | -0.250 | 0.025 | -0.045 | -0.065 | -0.100 |
reka-flash-20240904 | 16 | -0.080 | -0.175 | 0.225 | -0.170 | -0.250 | -0.115 | -0.060 | -0.070 | -0.010 |
jamba-1.5-mini | 17 | -0.100 | 0.065 | 0.070 | -0.145 | -0.250 | -0.115 | -0.180 | -0.140 | -0.080 |
相关链接
论文: https://arxiv.org/abs/2412.13602
主页: https://visual-ai.github.io/gamebot/
代码: https://github.com/Visual-AI/GAMEBoT