Monte Carlo Tree Search (MCTS) 蒙特·卡罗尔树搜索

最新推荐文章于 2025-05-03 19:44:58 发布

从流域到海域

最新推荐文章于 2025-05-03 19:44:58 发布

阅读量2.7k

点赞数 3

CC 4.0 BY-SA版权

分类专栏：强化学习文章标签： Model-Base RL Monte Carlo Tree Search Reinforcement Learning

本文链接：https://blog.youkuaiyun.com/Solo95/article/details/103218744

强化学习专栏收录该内容

28 篇文章

订阅专栏

本文深入探讨了蒙特卡洛树搜索(MCTS)在强化学习中的应用，特别是其在围棋等复杂游戏中的卓越表现。MCTS结合了模型预测与价值迭代，通过采样策略高效探索状态空间，适用于黑盒模型，展现了高度选择性和动态状态评估能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Monte Carlo Tree Search

为什么要学习MCTS
一部分原因是过去12年AI最大的成就莫过于Alpha Go，一个超越任何人类的围棋玩家
引入基于模型的RL思想和规划(planning)的好处

Introudction

Model-Based Reinforcement Learning

前面的博文：从经验中直接学习价值函数或者策略
这篇博文：从经验中直接学习模型(Transition or Reward model)
并且使用规划(planning)来构建一个价值函数或者策略
整合学习和规划到一个单独的架构

planning，取一个已知的world模型然后使用价值迭代或者策略迭代或者动态规划，尝试去计算出一个用于这些给定模型的策略。

Model-Based and Model-Free RL

Model-Free RL
- 没有模型
- 从经验中学习价值函数(和/或策略)
Model-Based RL
- 从经验中学习一个模型
- 从该模型中规划出价值函数(和/或策略)

当你有一个simulator(模拟器)的时候，你可以从模拟器中获取经验，然后：

DP
model-free RL
policy search

Model-Based RL

在这里插入图片描述

Advantages of Model-Based RL

优点:
- 能高效地使用监督学习的方法去学习模型
- 可以推理模型不确定性(像用于探索/利用权衡的上界置信边界(upper confidence bound))
缺点：
- 首先要学习出一个模型，然后再构建一个价值函数
  这样会有两个近似误差来源

变迁动态，大体上会被认为随机的，所以需要能产生分布预测的监督学习。奖励模型可以被看出是标量，所以可以使用非常经典的基于回归的方法。

还有一个需要提及的model-based reinforcement learning的优势，在迁移方面是非常强大的。Model-Based RL的一个好处是如果你学习了一个world的动态模型，如果有人更改了奖励函数，隐含着你可以做零改动迁移(zero shot transfer)，直接用原来的模型再加上新的奖励函数去计算一个新的计划。

MDP Model Refresher

一个模型 $M\mathcal{M}$ 表示了一个被 $η\eta$ 参数化的MDP $<S,A,P,R><\mathcal{S},\mathcal{A},\mathcal{P},\mathcal{R}>$
假定状态空间 $S\mathcal{S}$ 和动作空间 $A\mathcal{A}$ 是已知的
那么一个模型 $M=<Pη,Rη>\mathcal{M}=<\mathcal{P}_\eta,\mathcal{R}_\eta>$ 表示了状态变迁 $Pη≈P\mathcal{P}_\eta \approx\mathcal{P}$ 且 $Rη≈R\mathcal{R}_\eta \approx \mathcal{R}$
$St+1∼Pη(St+1∣St,At)S_{t+1} \sim \mathcal{P}_\eta(S_{t+1}|S_t,A_t)$
$Rt+1=Rη(Rt+1∣St,At)R_{t+1} = \mathcal{R}_\eta(R_{t+1}|S_t,A_t)$
典型地，假定状态变迁和奖励之间的条件性独立
$P[St+1,Rt+1∣St,At]=P[St+1∣St,At]P[Rt+1∣St,At]\mathbb{P}[S_{t+1},R_{t+1}|S_t,A_t]=\mathbb{P}[S_{t+1}|S_t,A_t]\mathbb{P}[R_{t+1}|S_t,A_t]$

Model Learning

目标：从经验 $S1,A1,R2,...,ST{S_1,A_1,R_2,...,S_\Tau}$ 中估计模型 $Mη\mathcal{M}_\eta$
这是一个监督学习问题
$S1,A1→R2,S2S_1,A_1\rightarrow R_2,S_2$
$S2,A2→R3,S3S_2,A_2\rightarrow R_3,S_3$
$. . .$
$ST−1,AT−1→RT,STS_{\Tau-1},A_{\Tau-1}\rightarrow R_{\Tau},S_{\Tau}$
学习 $s,a→rs,a\rightarrow r$ 是一个回归问题
学习 $s,a→s′s,a\rightarrow s'$ 是一个(概率)密度评估问题
选择损失函数，e.g. 均方误差，KL散度，…
找到使得实验误差最小化的参数集 $η\eta$

Example

以下列出了模型的一些例子：

Table Lookup Model(表格查询模型)
Linear Expectation Model(线性期望模型)
Linear Gaussian Model(线性高斯模型)
Gaussian Process Model(高斯过程模型)
Deep Belief Network Model(深度置信网络模型)
…

还有一种非常适合这里的模型Baysian DNN(贝叶斯深度神经网络)，但是它非常难训练。

Table Lookup Model

该模型是一个显式的MDP， $P^,R^\hat{\mathcal{P}},\hat{\mathcal{R}}$
计数每一个状态动作对的访问次数 $N (s, a)$
或者
- 在每一个时间步 $t$ ，记录经验元组 $S_t,A_t,R_{t+1},S_{t+1}>$
- 为了采样模型，随机选取匹配的元组 $< s, a, ., . >$

AB Example

在这里插入图片描述
TD需要马尔科夫假设，而MC则不需要。
在该例下，TD： $V (A) = V (B) = . 75$
MC: $V (A) = 0$ 而 $V (B) = 0.75$
因为MC采样到A的sample回报是0

Planning with a Model

给定一个模型 $Mη=<Pη,Rη>\mathcal{M}_\eta=<{\mathcal{P}_\eta,\mathcal{R}_\eta}>$
求解MDP $<S,A,Pη,Rη><\mathcal{S},\mathcal{A},\mathcal{P}_\eta,\mathcal{R}_\eta>$
然后选一个适合的planning算法
- 价值迭代
- 策略迭代
- 树搜索
- …

Sample-Based Planning

一个简单但是做planning有效的方法
仅仅使用模型生成采样
从模型中采样经验
$St+1∼Pη(St+1∣St,At)\mathcal{S}_{t+1}\sim\mathcal{P}_\eta(\mathcal{S}_{t+1}|\mathcal{S}_{t},\mathcal{A}_{t})$
$Rt+1=Rη(Rt+1∣St,At)R_{t+1}=\mathcal{R}_\eta(\mathcal{R}_{t+1}|\mathcal{S}_{t},\mathcal{A}_{t})$
可以使用model-free的RL方法来采样，e.g.:
- 蒙特·卡罗尔树搜索
- Sarsa
- Q-learning
基于采样的planning方法通常有更好的数据高效性

Back to the AB Example

从真实经验中构建一个table-lookup模型
应用model-free的RL方法来采样经验
- 以蒙特·卡罗尔学习为例： $V (A) = 1$ ， $V (B) = 0.75$
- 回顾前面的例子：MC在原始经验上收敛到了什么？
  $V (A) = 0$ ， $V (B) = 0.75$

Planning with an Inaccurate Model

给定一个不完美的模型 $<Pη,Rη>≠<P,R><\mathcal{P}_ \eta,\mathcal{R}_\eta>\not=<\mathcal{P},\mathcal{R}>$
model-based RL方法的表现受限于近似MDP的最佳策略 $<S,A,Pη,Rη><\mathcal{S},\mathcal{A},\mathcal{P}_ \eta,\mathcal{R}_\eta>$
例如. Model-based RL方法和估计模型一样好。
当模型是不准确的时候，planning过程会计算出一个次优策略
解决方法1：当模型是错的时候，使用model-free的RL方法(能够解决该问题取决于模型出错的原因)
解决方法2：对模型的不确定性做显式推理(回顾前面关于Exploration/Exploitation的博文)

Simulation-Based Search

基于模拟的搜索，终于到正题了

前向搜索

前向搜索的思想非常简单，向前看，然后再选择最佳的动作。

前向搜索算法通过向前预测选择最佳动作
这样来使用当前的状态从根开始构建一棵搜索树
使用一个MDP模型来完成向前预测
并不需要整个MDP，只需要从现在开始做预测的子MDP

Simulation-Based Search

前向搜索的模式，但是使用了基于采样的planning
从当前开始使用模型采样周期(episode)
应用model-free的RL来采样周期

Simulation-Based Search (2)

从当前开始使用模型采样周期(episode)
${Stk,Atk,Rt+1k,...,STk}k=1K∼Mv\{S_t^k,A_t^k,R_{t+1}^k,...,S_\Tau^k\}_{k=1}^K\sim\mathcal{M}_v$
应用model-free的RL来采样周期
- Monte Carlo control $→\rightarrow$ Monte Carlo search
- Sarsa $→\rightarrow$ TD search

Simple Monte-Carlo Search

给定一个模型 $Mv\mathcal{M}_v$ 和一个采样策略 $π\pi$
对每一个动作 $\in \mathcal{A}$
- 从当前(真实)状态 $s_t$ 模拟 $K$ 个周期
  ${st,a,Rt+1k,...,STk}k=1K∼Mv,π\{s_t,a,R_{t+1}^k,...,S_\Tau^k\}_{k=1}^K\sim \mathcal{M}_v,\pi$
- 通过对回报取平均的方式来评估动作(Monte-Carlo evaluation)
  $Q(st,a)=1K∑k=1KGt→Pqπ(st,a)Q(s_t,a)=\frac{1}{K}\sum_{k=1}^{K}G_t \stackrel{P}\rightarrow q_\pi(s_t,a)$
选取有最大价值的当前(真实)动作
$at=argmaxa∈AQ(st,a)a_t=\mathop{argmax}\limits_{a\in A} Q(s_t,a)$
这其实基本上做了一步策略提升

Expectimax Tree

我们能比只做一步策略提升做得更进一步吗
如果有一个MDP模型 $Mv\mathcal{M}_v$
可以通过为当前的状态构建一个最大期望树来计算一个最优的 $q (s, a)$ 价值
局限性：树的大小扩张的规模
$S||A|)^H$

Monte-Carlo Tree Search (MCTS)

给定一个模型 $Mv\mathcal{M}_v$
以当前状态为根构建一个搜索树
采样动作和下一个状态
从根结点状态通过执行 $K$ 次周期模拟迭代地构建和更新树
在搜索结束之后，选择在搜索树中有最大价值的当前(真实)动作
$at=argmaxa∈AQ(st,a)a_t=\mathop{argmax}\limits_{a\in A}Q(s_t,a)$
模拟一个周期包括了两个阶段(in-tree, out-of-tree)
- Tree policy：为树节点选择动作来最大化 $Q (S, A)$
- Roll out Policy：e.g. 随机选择动作，或者另一个策略
为了评估一个树节点 $i$ 在状态动作对 $(s, a)$ 的价值，在从该节点之后横跨整个模拟周期能达到的所有点获得的所有的回报上取平均:
在比较温和的条件下，收敛到最优的搜索树
$Q(S,A)→q∗(S,A)Q(S,A)\rightarrow q^*(S,A)$

Upper Confidence Tree (UCT) Search

我们怎样在一个模拟周期内选择动作？
UCT(上界置信树搜索)：从老虎机(bandit)文献上借鉴过来的思想，即把选择动作当做是一个多臂老虎机(MAB)问题
在每一个臂上维持一个回报的上界置信边界
简单起见可以把每一个状态节点看作是一个单独的MAB
对于模拟周期 $k$ 中的结点 $i$ ，选择有最高上界动作/臂来模拟并在树上展开(或评估)
$a_{ik}=argmax Q(s,a,i)$
这隐含着用来模拟周期的策略(和展开/更新树的策略)在整个周期上是可以改变的

Case Study: the Game of Go

围棋已有2500年的历史(按我们国家的说法有4000年)
最难的经典棋盘游戏
非常大的挑战性任务(John McCarthy)
传统的博弈树(game-tree)搜索在围棋这个例子上失败了
提问：在围棋对弈的过程中属于在一个动态模型和回报模型是未知的吗？

<font=‘楷体’>不，是已知的。因为围棋的规则是已知的，所有状态的变迁和奖励都是已知的。
在这里插入图片描述

Position Evaluation in Go

一个位置(指棋盘上) $s$ 有多好
奖励函数(这里没有折扣)
$R_t=0$ 对所有非终止步 $t<Tt<\Tau$
$RT={1,如果黑棋获胜0,如果白棋获胜R_{\Tau}= \begin{cases} 1, 如果黑棋获胜 \\ 0, 如果白棋获胜 \end{cases}$
这个奖励函数非常稀疏
策略 $π=<πB,πW>\pi=<\pi_B,\pi_W>$ 同时为两个玩家选择动作
价值函数(描述位置 $s$ 有多好)
$wins∣S=s]v_\pi(s)=\mathbb{E}[R_\Tau|S=s]=\mathbb{P}[Black\ wins | S = s]$
$v∗(s)=maxπBminπWvπ(s)v^*(s)=\mathop{max}\limits_{\pi B}\mathop{min}\limits_{\pi W}v_\pi(s)$