4、蒙特卡罗树搜索在游戏中的应用与改进-优快云博客

本文链接：https://blog.youkuaiyun.com/ansible6ops/article/details/149363310

蒙特卡罗树搜索在游戏中的应用与改进

1. 引言

在双人零和游戏的程序开发中，αβ搜索曾长期作为标准方法，不过在一些难以构建准确位置评估函数的游戏（如围棋）中，其效果并不理想。蒙特卡罗（MC）方法曾被用作搜索树中的评估函数，在此基础上发展出了蒙特卡罗树搜索（MCTS）。MCTS是一种由蒙特卡罗模拟结果引导的最佳优先搜索方法，在过去两年中极大地推动了计算机围棋领域的发展，并且也应用于其他游戏。然而，MCTS无法证明搜索树节点的博弈论价值，在像国际象棋这类突然死亡式游戏中可能会遇到问题，传统上这类游戏更倾向于使用αβ搜索或特殊的残局求解器。

为了解决这一问题，我们引入了一种新的MCTS变体——MCTS - Solver，它旨在证明搜索树中节点的博弈论价值，以更好地应用于突然死亡式游戏。我们选择了行动线（Lines of Action，LOA）游戏作为测试平台，因为它的复杂度低于国际象棋，能让我们专注于突然死亡特性，且该游戏的现有程序水平较高，便于我们比较MCTS方法与其他评估函数的性能。

2. 行动线（LOA）游戏规则

行动线（LOA）是一款双人零和、信息完全的连接游戏，在8×8的棋盘上进行，双方分别为黑方和白方，各有12个棋子。黑方棋子分布在棋盘的上下两行，白方棋子分布在棋盘的左右两列。游戏由黑方开始，双方轮流移动棋子。移动时，棋子沿直线移动，移动的格数等于该直线上任意颜色棋子的总数。玩家可以跳过自己的棋子，但不能跳过对手的棋子，不过可以通过落在对手棋子上进行捕获。游戏目标是率先使自己的所有棋子连接成一个整体，若双方同时达成则为平局。棋子之间的连接可以是正交或对角的。若玩家无法移动则需跳过回合，若同一玩家移动的相同局面出现三次，游戏也为平局。