蒙特卡洛价值预测

最新推荐文章于 2025-12-02 20:19:19 发布

原创最新推荐文章于 2025-12-02 20:19:19 发布 · 151 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

动手学强化学习专栏收录该内容

9 篇文章

订阅专栏

本文介绍了蒙特卡洛价值预测，一种基于策略从经验片段学习的算法，它利用平均累积奖励而非期望值来估计值函数。方法适用于马尔可夫决策过程中的可分片段，不依赖于模型，但对无限或长链情况需用其他方法如时序差分学习补充。

蒙特卡洛价值预测

蒙特卡洛价值估计

目标：从策略 $π\pi$ 下的经验片段学习 $VπV^{\pi}$

$s0(i)→R1(i)a0(i)s1(i)→R2(i)a1(i)s2(i)→R3(i)a2(i)s3(i)⋯sT(i)∼π{s^{(i)}_{0}}\xrightarrow[R^{(i)}_{1}]{a^{(i)}_{0}}{s^{(i)}_{1}}\xrightarrow[R^{(i)}_{2}]{a^{(i)}_{1}}{s^{(i)}_{2}}\xrightarrow[R^{(i)}_{3}]{a^{(i)}_{2}}{s^{(i)}_{3}}\cdots{s^{(i)}_{T}\sim\pi}$

回顾：累积奖励（return）是总折扣奖励

$Gt=Rt+1+γRt+2+⋯+γT−1RTG_{t}=R_{t+1}+\gamma R_{t+2}+\cdots+\gamma^{T-1}R_{T}$

回顾：值函数（value function）是期望累积奖励

$\begin{aligned} V^{\pi}(s) &= \mathbb{E}[R(s_{0})+\gamma R(s_{1})+\gamma^{2}R(s_{2})+\cdots|s_{0}=s,\pi] \\ &= \mathbb{E}[G_{t}|s_{t}=s,\pi] \\ &\simeq \frac{1}{N}\sum^{N}_{i=1}G^{(i)}_{t} \end{aligned}$

使用策略 $π\pi$ 从状态 $s$ 采样N个片段
计算平均累计奖励

经验均值累计奖励

蒙特卡洛策略评估使用经验均值累计奖励而不是期望累计奖励

实现过程：使用策略 $π\pi$ 采样片段

$s0(i)→R1(i)a0(i)s1(i)→R2(i)a1(i)s2(i)→R3(i)a2(i)s3(i)⋯sT(i)∼π{s^{(i)}_{0}}\xrightarrow[R^{(i)}_{1}]{a^{(i)}_{0}}{s^{(i)}_{1}}\xrightarrow[R^{(i)}_{2}]{a^{(i)}_{1}}{s^{(i)}_{2}}\xrightarrow[R^{(i)}_{3}]{a^{(i)}_{2}}{s^{(i)}_{3}}\cdots{s^{(i)}_{T}\sim\pi}$

在一个片段中的每个时间步长 $t$ 的状态 $s$ 都被访问

增量计数器 $N(s)←N(s)+1N(s)\leftarrow N(s)+1$
增量总累计奖励 $\leftarrow S(s)+G_{t}$
值被估计为累计奖励的均值 $V (s) = S (s) / N (s)$
由大数定律有

$V(s)→Vπ(s)asN(s)→∞V(s)\rightarrow V^{\pi}(s) \quad as \quad N(s) \rightarrow \infty$

增量蒙特卡洛更新

每个片段结束后逐步更新 $V (s)$
对于每个状态 $S_{t}$ 和对应累计奖励 $G_{t}$

$N(St)←N(St)+1N(S_{t}) \leftarrow N(S_{t})+1$

$V(St)←V(St)+1N(St)(Gt−V(St))V(S_{t}) \leftarrow V(S_{t})+\frac{1}{N(S_{t})}(G_{t}-V(S_{t}))$

对于非稳定的问题（环境会随时间发生变化），我们可以跟踪一个现阶段的平均值（不考虑过久之前的片段）

$V(St)←V(St)+α(Gt−V(St))V(S_{t}) \leftarrow V(S_{t})+\alpha(G_{t}-V(S_{t}))$

$⇓\Downarrow$

$V(St)←(1−α)V(St)+αGtV(S_{t}) \leftarrow (1-\alpha)V(S_{t})+\alpha G_{t}$

思路： $V(St)≃1N∑i=1NGt(i)V(S_{t}) \simeq\frac{1}{N}\sum^{N}_{i=1}{G^{(i)}_{t}}$

实现： $V(St)←V(St)+α(Gt−V(St))V(S_{t}) \leftarrow V(S_{t})+\alpha(G_{t}-V(S_{t}))$

总结

蒙特卡洛方法：直接从经验片段进行学习
蒙特卡洛是模型无关的：未知马尔可夫决策过程的状态转移/奖励
蒙特卡洛从完整的片段中进行学习：没有使用bootstrapping的方法
蒙特卡洛采用最简单的思想：值（value）= 平均累计奖励（mean return）

只能将蒙特卡洛方法应用于可分片段的马尔可夫决策过程中
即，所有的片段都有终止状态

为什么蒙特卡洛算法只能用于可分片段的马尔可夫决策过程？

可分片段的含义是该马尔可夫决策过程长度有限，这样才能计算总折扣奖励，在实际操作中，如果遇到非常长的马尔可夫链或者无限马尔可夫链，一般使用后面的课程会提到的时序差分学习。

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。