文章主要内容和创新点
主要内容
本文以越南传统棋盘游戏(\hat{O} Ấn Quan)为测试平台,探究大型语言模型(LLMs)的多步规划与决策能力。该游戏为完全可观察、确定性的回合制游戏,包含循环移动和资源循环机制,要求玩家通过分配代币(Scattering Phase)和捕获代币(Capturing Phase)进行战略博弈。
研究中,作者基于不同规模的Llama模型(Llama-3.2-3B-Instruct、Llama-3.1-8B-Instruct、Llama-3.3-70B-Instruct)构建了具有不同行为角色(如进攻型、防守型、平衡型等)的智能体,通过实验评估模型在游戏中的表现:
- 分析不同策略(角色)对游戏结果的影响,发现平衡型策略整体表现更优;
- 比较不同规模LLM的性能,发现较小的Llama-3.1-8B-Instruct在对抗最大模型时胜率最高(38%),而更大的模型(如70B)规划深度更深;
- 研究模型推理类型,发现小模型更倾向短期收益(70.18%),大模型更注重长期策略(64.86%),且所有模型的规划深度随游戏进程下降。
创新点
- 独特的测试平台选择:与现有研究多关注不完美信息游戏(如狼人杀、阿瓦隆)不同,(\hat{O} Ấn Quan)为完全可观察、确定性回合制游戏,具有循环移动和资源循环特性,为评估LLMs的结构化推理能力提供了新场景。
- 角色化Agent设计:通过自然语言定
订阅专栏 解锁全文
2065

被折叠的 条评论
为什么被折叠?



