1. Monte Carlo Tree Search – 蒙特卡洛搜索树
该算法也是搜索算法中的一种,与上篇讲过的Minimax相比,该算法更专注于某一利益最大的分支,而不是遍历全部。核心点:
- 通过rollouts来评估,从一个状态出发到目的不断评估当前路径的价值
- 有选择性的搜索,即是探索对整体状态最有价值的路径
2. 算法思想
可以分为四步,分别是
2.1 Selection(选择):递归调用UCB1算法选择一条当前到目标节点的路径
UCB1公式如下

- 第一个均值为当前节点的价值U / 当前节点的遍历次数N
- n代表总探索次数
- nj代表当前j节点被探索的次数
2.2 Expansion(扩展):枚举其下所有可能的路径并添加到树中
2.3 Simulation(模拟):对新节点A做rollout
何为rollout ? 其实就是一个随机模拟的过程即是预演算法,从该新节点A开始随机选择路径(符合规定的)逼近目标,当达到目标后会根据经过的路径返回一个评估值(判断该路径的好坏程度)

文章介绍了MonteCarloTreeSearch(MCTS)算法,包括选择、扩展、模拟和回溯四个步骤,重点在于通过UCB1策略评估路径价值,适用于大分支问题,并可利用硬件并行化加速模拟过程。
最低0.47元/天 解锁文章
1835





