蒙特卡洛价值预测

蒙特卡洛方法:经验片段驱动的价值估计与策略学习
本文介绍了蒙特卡洛价值预测,一种基于策略从经验片段学习的算法,它利用平均累积奖励而非期望值来估计值函数。方法适用于马尔可夫决策过程中的可分片段,不依赖于模型,但对无限或长链情况需用其他方法如时序差分学习补充。

蒙特卡洛价值预测

蒙特卡洛价值估计

目标:从策略 π\piπ 下的经验片段学习 VπV^{\pi}Vπ

s0(i)→R1(i)a0(i)s1(i)→R2(i)a1(i)s2(i)→R3(i)a2(i)s3(i)⋯sT(i)∼π{s^{(i)}_{0}}\xrightarrow[R^{(i)}_{1}]{a^{(i)}_{0}}{s^{(i)}_{1}}\xrightarrow[R^{(i)}_{2}]{a^{(i)}_{1}}{s^{(i)}_{2}}\xrightarrow[R^{(i)}_{3}]{a^{(i)}_{2}}{s^{(i)}_{3}}\cdots{s^{(i)}_{T}\sim\pi}s0(i)a0(i)R1(i)s1(i)a1(i)R2(i)s2(i)a2(i)R3(i)s3(i)sT(i)π

回顾:累积奖励(return)是总折扣奖励

Gt=Rt+1+γRt+2+⋯+γT−1RTG_{t}=R_{t+1}+\gamma R_{t+2}+\cdots+\gamma^{T-1}R_{T}Gt=Rt+1+γRt+2++γT1RT

回顾:值函数(value function)是期望累积奖励

Vπ(s)=E[R(s0)+γR(s1)+γ2R(s2)+⋯∣s0=s,π]=E[Gt∣st=s,π]≃1N∑i=1NGt(i) \begin{aligned} V^{\pi}(s) &= \mathbb{E}[R(s_{0})+\gamma R(s_{1})+\gamma^{2}R(s_{2})+\cdots|s_{0}=s,\pi] \\ &= \mathbb{E}[G_{t}|s_{t}=s,\pi] \\ &\simeq \frac{1}{N}\sum^{N}_{i=1}G^{(i)}_{t} \end{aligned} Vπ(s)=E[R(s0)+γR(s1)+γ2R(s2)+s0=s,π]=E[Gtst=s,π]N1i=1NGt(i)

  • 使用策略 π\piπ 从状态 sss 采样N个片段
  • 计算平均累计奖励

经验均值累计奖励

蒙特卡洛策略评估使用经验均值累计奖励而不是期望累计奖励

实现过程:使用策略 π\piπ 采样片段

s0(i)→R1(i)a0(i)s1(i)→R2(i)a1(i)s2(i)→R3(i)a2(i)s3(i)⋯sT(i)∼π{s^{(i)}_{0}}\xrightarrow[R^{(i)}_{1}]{a^{(i)}_{0}}{s^{(i)}_{1}}\xrightarrow[R^{(i)}_{2}]{a^{(i)}_{1}}{s^{(i)}_{2}}\xrightarrow[R^{(i)}_{3}]{a^{(i)}_{2}}{s^{(i)}_{3}}\cdots{s^{(i)}_{T}\sim\pi}s0(i)a0(i)R1(i)s1(i)a1(i)R2(i)s2(i)a2(i)R3(i)s3(i)sT(i)π

在一个片段中的每个时间步长 ttt 的状态 sss 都被访问

  • 增量计数器 N(s)←N(s)+1N(s)\leftarrow N(s)+1N(s)N(s)+1
  • 增量总累计奖励 S(s)←S(s)+GtS(s) \leftarrow S(s)+G_{t}S(s)S(s)+Gt
  • 值被估计为累计奖励的均值 V(s)=S(s)/N(s)V(s)=S(s)/N(s)V(s)=S(s)/N(s)
  • 由大数定律有

V(s)→Vπ(s)asN(s)→∞V(s)\rightarrow V^{\pi}(s) \quad as \quad N(s) \rightarrow \inftyV(s)Vπ(s)asN(s)

增量蒙特卡洛更新

每个片段结束后逐步更新 V(s)V(s)V(s)
对于每个状态 StS_{t}St 和对应累计奖励 GtG_{t}Gt

N(St)←N(St)+1N(S_{t}) \leftarrow N(S_{t})+1N(St)N(St)+1

V(St)←V(St)+1N(St)(Gt−V(St))V(S_{t}) \leftarrow V(S_{t})+\frac{1}{N(S_{t})}(G_{t}-V(S_{t}))V(St)V(St)+N(St)1(GtV(St))

对于非稳定的问题(环境会随时间发生变化),我们可以跟踪一个现阶段的平均值(不考虑过久之前的片段)

V(St)←V(St)+α(Gt−V(St))V(S_{t}) \leftarrow V(S_{t})+\alpha(G_{t}-V(S_{t}))V(St)V(St)+α(GtV(St))

⇓\Downarrow

V(St)←(1−α)V(St)+αGtV(S_{t}) \leftarrow (1-\alpha)V(S_{t})+\alpha G_{t}V(St)(1α)V(St)+αGt

思路: V(St)≃1N∑i=1NGt(i)V(S_{t}) \simeq\frac{1}{N}\sum^{N}_{i=1}{G^{(i)}_{t}}V(St)N1i=1NGt(i)

实现: V(St)←V(St)+α(Gt−V(St))V(S_{t}) \leftarrow V(S_{t})+\alpha(G_{t}-V(S_{t}))V(St)V(St)+α(GtV(St))

总结

  • 蒙特卡洛方法:直接从经验片段进行学习
  • 蒙特卡洛是模型无关的:未知马尔可夫决策过程的状态转移/奖励
  • 蒙特卡洛从完整的片段中进行学习:没有使用bootstrapping的方法
  • 蒙特卡洛采用最简单的思想:值(value)= 平均累计奖励(mean return)

只能将蒙特卡洛方法应用于可分片段的马尔可夫决策过程中
即,所有的片段都有终止状态


为什么蒙特卡洛算法只能用于可分片段的马尔可夫决策过程?

可分片段的含义是该马尔可夫决策过程长度有限,这样才能计算总折扣奖励,在实际操作中,如果遇到非常长的马尔可夫链或者无限马尔可夫链,一般使用后面的课程会提到的时序差分学习

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值