4、蒙特卡罗树搜索在游戏中的应用与改进

蒙特卡罗树搜索在游戏中的应用与改进

1. 引言

在双人零和游戏的程序开发中,αβ搜索曾长期作为标准方法,不过在一些难以构建准确位置评估函数的游戏(如围棋)中,其效果并不理想。蒙特卡罗(MC)方法曾被用作搜索树中的评估函数,在此基础上发展出了蒙特卡罗树搜索(MCTS)。MCTS是一种由蒙特卡罗模拟结果引导的最佳优先搜索方法,在过去两年中极大地推动了计算机围棋领域的发展,并且也应用于其他游戏。然而,MCTS无法证明搜索树节点的博弈论价值,在像国际象棋这类突然死亡式游戏中可能会遇到问题,传统上这类游戏更倾向于使用αβ搜索或特殊的残局求解器。

为了解决这一问题,我们引入了一种新的MCTS变体——MCTS - Solver,它旨在证明搜索树中节点的博弈论价值,以更好地应用于突然死亡式游戏。我们选择了行动线(Lines of Action,LOA)游戏作为测试平台,因为它的复杂度低于国际象棋,能让我们专注于突然死亡特性,且该游戏的现有程序水平较高,便于我们比较MCTS方法与其他评估函数的性能。

2. 行动线(LOA)游戏规则

行动线(LOA)是一款双人零和、信息完全的连接游戏,在8×8的棋盘上进行,双方分别为黑方和白方,各有12个棋子。黑方棋子分布在棋盘的上下两行,白方棋子分布在棋盘的左右两列。游戏由黑方开始,双方轮流移动棋子。移动时,棋子沿直线移动,移动的格数等于该直线上任意颜色棋子的总数。玩家可以跳过自己的棋子,但不能跳过对手的棋子,不过可以通过落在对手棋子上进行捕获。游戏目标是率先使自己的所有棋子连接成一个整体,若双方同时达成则为平局。棋子之间的连接可以是正交或对角的。若玩家无法移动则需跳过回合,若同一玩家移动的相同局面出现三次,游戏也为平局。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值