蒙特卡罗树搜索在游戏中的应用与改进
1. 引言
在双人零和游戏的程序开发中,αβ搜索曾长期作为标准方法,不过在一些难以构建准确位置评估函数的游戏(如围棋)中,其效果并不理想。蒙特卡罗(MC)方法曾被用作搜索树中的评估函数,在此基础上发展出了蒙特卡罗树搜索(MCTS)。MCTS是一种由蒙特卡罗模拟结果引导的最佳优先搜索方法,在过去两年中极大地推动了计算机围棋领域的发展,并且也应用于其他游戏。然而,MCTS无法证明搜索树节点的博弈论价值,在像国际象棋这类突然死亡式游戏中可能会遇到问题,传统上这类游戏更倾向于使用αβ搜索或特殊的残局求解器。
为了解决这一问题,我们引入了一种新的MCTS变体——MCTS - Solver,它旨在证明搜索树中节点的博弈论价值,以更好地应用于突然死亡式游戏。我们选择了行动线(Lines of Action,LOA)游戏作为测试平台,因为它的复杂度低于国际象棋,能让我们专注于突然死亡特性,且该游戏的现有程序水平较高,便于我们比较MCTS方法与其他评估函数的性能。
2. 行动线(LOA)游戏规则
行动线(LOA)是一款双人零和、信息完全的连接游戏,在8×8的棋盘上进行,双方分别为黑方和白方,各有12个棋子。黑方棋子分布在棋盘的上下两行,白方棋子分布在棋盘的左右两列。游戏由黑方开始,双方轮流移动棋子。移动时,棋子沿直线移动,移动的格数等于该直线上任意颜色棋子的总数。玩家可以跳过自己的棋子,但不能跳过对手的棋子,不过可以通过落在对手棋子上进行捕获。游戏目标是率先使自己的所有棋子连接成一个整体,若双方同时达成则为平局。棋子之间的连接可以是正交或对角的。若玩家无法移动则需跳过回合,若同一玩家移动的相同局面出现三次,游戏也为平局。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



