竞争性协同进化粒子群优化器分析
游戏规则
在这个游戏中,若有多个捕获移动可供选择,玩家需自行决定采取哪个捕获移动。进行捕获移动时,玩家必须用同一棋子持续进行捕获移动,直至无法再进行捕获移动为止。对手的最后一排被称为“王行”,当一个普通棋子到达王行时,该棋子会被“加冕”,变为王棋。若棋子被加冕,玩家的回合会立即结束,即便新加冕的棋子有捕获移动机会也不行。
每个玩家初始在棋盘上有 12 个普通棋子,从左下角开始填充深色格子。深色玩家总是先行动,称为玩家 1,浅色玩家称为玩家 2。游戏只有两种可能结果:胜利或平局。胜利的定义是对手在轮到其行动时无法移动棋子,这可能是对手没有棋子了,或者无法将棋子移动到空单元格。多次连续捕获/跳跃算作一步移动。
PSO 竞争性协同进化训练算法
游戏树
在协同进化训练算法中,使用了具有任意前瞻步数(层深度)的标准极小 - 极大游戏树。构建游戏树时,将根节点设为当前棋盘状态,任何节点的子节点代表游戏中从一个棋盘状态(由父节点表示)到下一个棋盘状态(由子节点表示)的可能移动。
叶子节点根据游戏代理的启发式评估函数赋予启发式值,在协同进化算法中,该启发式评估函数是神经网络。然后根据父节点的层级要求设置叶子节点父节点的值,例如,最大层的父节点会选择启发式值最大的子节点。以这种方式将值“冒泡”到根节点,直到所有节点都被评估。根节点通过移动到启发式值最佳的子节点来做出最佳移动。需注意,假定对手会始终根据当前游戏代理的启发式评估函数做出最佳可能移动。同时,使用了 α - β 剪枝来剪掉不可能被选为最佳子节点的节点。
神经网络
协同进化训练算法使用前馈神经网络作
竞争性协同进化PSO优化分析
超级会员免费看
订阅专栏 解锁全文
32

被折叠的 条评论
为什么被折叠?



