基于专家迭代的Risk游戏玩家设计与实验分析
1. 研究背景与相关方法回顾
在设计Risk游戏玩家时,我们的目标是简化方案并减少手工特征的使用,但目前的方法尚未达到理想的游戏水平。回顾Carr的方法,其玩家成功的一个重要因素是将攻击阶段变为确定性的。而在我们的方法中,通过采样对状态和动作进行价值估计特别困难,需要大量的模拟。因此,我们认为使用带有结果和概率的查找表可以真正加快价值估计。我们避免在攻击中使用结果的概率,以使玩家具有通用性,能在难以计算或概率不固定的情况下工作。
2020年Blomqvist提出的第二个玩家采用了AlphaZero算法,与我们的意图非常相似,但网络架构仅由全连接线性层组成。一个有价值的结果是,即使学习到的策略不是特别强,但作为先验加入时可以改进蒙特卡罗树搜索(MCTS),引导搜索朝着有趣的走法进行。
2. 玩家设计
2.1 总体玩家设计与架构
Risk游戏的棋盘可以自然地表示为图,这提示我们使用图神经网络(GNN)而非传统网络。受围棋玩家发展中卷积层重要性的启发,我们决定使用图卷积网络(GCN)。
我们将国家视为读取游戏棋盘的基本单元,因为大部分所需信息存储在国家层面。输入仅考虑基本信息,如国家军队占棋盘总军队的百分比、国家所有者、所属大陆、大陆奖励等。与围棋类似,还可以创建更复杂的特征,如国家是否在大陆边界、是否有盟友/敌人邻居。计算这些特征后,每个国家生成一个张量,输入到深度残差卷积层以创建隐藏的棋盘表示。我们受到围棋中残差块和更深模型提高性能的启发,初始块使用四个深度GCN层,每个独立头再使用四个。
在网络设计中,除了卡片交易外,每个动作的策略可以表示为图节点
超级会员免费看
订阅专栏 解锁全文
2972

被折叠的 条评论
为什么被折叠?



