【强化学习】MCTS

原创

已于 2022-08-11 11:44:06 修改 · 1.4k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #机器学习 #人工智能

于 2021-07-21 10:06:52 首次发布

本文深入探讨了基于仿真的搜索方法，包括MCSearch和MCTS（蒙特卡洛树搜索）。MCSearch是一种简单的模拟方法，通过多次采样计算动作价值。MCTS则在MCSearch基础上进行优化，减少了计算量。MCTS的核心是UCT策略，它平衡了探索和开发，避免过度专注于已知好的动作。文中还给出了MCTS在棋类游戏中的应用及其搜索步骤，并提供了一个简单的Python实现示例。

Simulation-Based Search

基于仿真的搜索包含两点：一个是simulation，其次是search。simulation是基于强化学习model进行采样，得到样本数据。但这不是基于和环境交互获得的真实数据。search则是为了利用样本结果来帮我们计算应该采用什么动作，以实现长期利益最大化
要理解什么是Simulation-Based Search，首先要明白什么是forward search，forward search从当前考虑的一个节点（状态） $S_t$ 开始，然后对其所有可能的action进行扩展，建立一棵以 $S_t$ 为根节点的搜索树，这棵树是一个MDP（马尔科夫决策过程），求解这个MDP，然后得到 $S_t$ 状态最应该采用的动作 $A_t$ 。如下图所示
在这里插入图片描述

MC Search

Simulation-based Search的一种简单方法是：简单MC Search。它基于一个模型 $M_v$ 和策略 $\pi$ ，针对当前状态 $S_t$ ，对每一个可能采样的动作 $KaTeX parse error: Undefined control sequence: \inA at position 2: a\̲i̲n̲A̲$ ，都进行K轮采样，这样每个动作 $a$ 都会得到K组完整的episode。即：
$\{S_t,a,R_{t+1}^k,S_{t+1}^k,A_{t+1}^k,...S_T^k\}_{k=1}^K -M_v,\pi$
对于每个 $S_t,a)$ ，使用MC算法算法先算出每一个episode的 $G_t$ ，然后得到每个 $S_t,a)$ ，算出动作价值函数和选择最优动作
$Q(S_t,a)=\frac{1}{K}\sum_{k=1}^{K}G_t$
$a_t=arg\max_{a\in A}Q(S_t,a)$