机器学习系列之蒙特卡罗树搜索（MCTS）

蒙特卡罗树搜索详解

最新推荐文章于 2025-09-15 08:20:37 发布

原创最新推荐文章于 2025-09-15 08:20:37 发布 · 2.2k 阅读

7 ·

CC 4.0 BY-SA版权

机器学习专栏收录该内容

7 篇文章

订阅专栏

蒙特卡罗树搜索（MCTS）是一种启发式搜索算法，尤其适用于围棋等复杂棋类游戏。它通过选择、扩展、仿真和反向传播四个步骤，在不确定环境下寻找最优解。UCB1公式用于选择最具潜力的节点。

蒙特卡罗树搜索（MCTS）

蒙特卡罗算法的思想可以看我这篇博客
蒙特卡罗树搜索，即 Monte Carlo tree search（MCTS）是一种启发式搜索算法。现在我们来考虑下围棋这个游戏，我们用经典的Minmax搜索会碰到两个问题：

每一步可能有很多中走法，这就导致搜索树太广。
要走很多步游戏才结束，也就是说搜索树特别深。

这时，蒙特卡罗树搜索就能发挥作用，它不遍历整个搜索树，也即找到的不是最优解，但是是一个解决该问题的方法，它可以让游戏树向最优的方向扩展。

原理

蒙特卡罗树搜索的每个循环包括下面四个步骤（看不懂没关系，我后面会结合图具体讲解）：

选择（Selection）：从根节点R开始，选择合适的子节点向下至叶子节点L（怎样选择合适的点后面再说）。
扩展（Expansion）：除非任意一方的输赢使得游戏在L结束，否则创建一个或多个子节点并选取其中一个节点C。
仿真（Simulation）：在从节点C开始，用随机策略进行游戏，又称为playout或者rollout。
反向传播（Backpropagation）：把模拟的结果加到它所有的父节点上。

图片来自维基百科
上图来自于维基百科，每个节点上的A/B可以理解为，该节点被访问了B次，然后黑方胜利了A次，可以对照理解它的四个步骤。所以，我们其实可以看出，它是想用选择某节点后输赢的频率来代替选择该节点后输赢的概率，也就是说我想计算走这一步后的最后赢的概率，但是因为无法穷举，就计算输赢的频率。用能观察的频率代替真实的概率。