蒙特卡洛价值预测

本文介绍了蒙特卡洛价值预测,一种基于策略从经验片段学习的算法,它利用平均累积奖励而非期望值来估计值函数。方法适用于马尔可夫决策过程中的可分片段,不依赖于模型,但对无限或长链情况需用其他方法如时序差分学习补充。

蒙特卡洛价值预测

蒙特卡洛价值估计

目标:从策略 π\piπ 下的经验片段学习 VπV^{\pi}Vπ

s0(i)→R1(i)a0(i)s1(i)→R2(i)a1(i)s2(i)→R3(i)a2(i)s3(i)⋯sT(i)∼π{s^{(i)}_{0}}\xrightarrow[R^{(i)}_{1}]{a^{(i)}_{0}}{s^{(i)}_{1}}\xrightarrow[R^{(i)}_{2}]{a^{(i)}_{1}}{s^{(i)}_{2}}\xrightarrow[R^{(i)}_{3}]{a^{(i)}_{2}}{s^{(i)}_{3}}\cdots{s^{(i)}_{T}\sim\pi}s0(i)a0(i)R1(i)s1(i)a1(i)R2(i)s2(i)a2(i)R3(i)s3(i)sT(i)π

回顾:累积奖励(return)是总折扣奖励

Gt=Rt+1+γRt+2+⋯+γT−1RTG_{t}=R_{t+1}+\gamma R_{t+2}+\cdots+\gamma^{T-1}R_{T}Gt=Rt+1+γRt+2++γT1RT

回顾:值函数(value function)是期望累积奖励

Vπ(s)=E[R(s0)+γR(s1)+γ2R(s2)+⋯∣s0=s,π]=E[Gt∣st=s,π]≃1N∑i=1NGt(i) \begin{aligned} V^{\pi}(s) &= \mathbb{E}[R(s_{0})+\gamma R(s_{1})+\gamma^{2}R(s_{2})+\cdots|s_{0}=s,\pi] \\ &= \mathbb{E}[G_{t}|s_{t}=s,\pi] \\ &\simeq \frac{1}{N}\sum^{N}_{i=1}G^{(i)}_{t} \end{aligned} Vπ(s)=E[R(s0)+γR(s1)+γ2R(s2)+s0=s,π]=E[Gtst=s,π]N1i=1NGt(i)

  • 使用策略 π\piπ 从状态 sss 采样N个片段
  • 计算平均累计奖励

经验均值累计奖励

蒙特卡洛策略评估使用经验均值累计奖励而不是期望累计奖励

实现过程:使用策略 π\piπ 采样片段

s0(i)→R1(i)a0(i)s1(i)→R2(i)a1(i)s2(i)→R3(i)a2(i)s3(i)⋯sT(i)∼π{s^{(i)}_{0}}\xrightarrow[R^{(i)}_{1}]{a^{(i)}_{0}}{s^{(i)}_{1}}\xrightarrow[R^{(i)}_{2}]{a^{(i)}_{1}}{s^{(i)}_{2}}\xrightarrow[R^{(i)}_{3}]{a^{(i)}_{2}}{s^{(i)}_{3}}\cdots{s^{(i)}_{T}\sim\pi}s0(i)a0(i)R1(i)s1(i)a1(i)R2(i)s2(i)a2(i)R3(i)s3(i)sT(i)π

在一个片段中的每个时间步长 ttt 的状态 sss 都被访问

  • 增量计数器 N(s)←N(s)+1N(s)\leftarrow N(s)+1N(s)N(s)+1
  • 增量总累计奖励 S(s)←S(s)+GtS(s) \leftarrow S(s)+G_{t}S(s)S(s)+Gt
  • 值被估计为累计奖励的均值 V(s)=S(s)/N(s)V(s)=S(s)/N(s)V(s)=S(s)/N(s)
  • 由大数定律有

V(s)→Vπ(s)asN(s)→∞V(s)\rightarrow V^{\pi}(s) \quad as \quad N(s) \rightarrow \inftyV(s)Vπ(s)asN(s)

增量蒙特卡洛更新

每个片段结束后逐步更新 V(s)V(s)V(s)
对于每个状态 StS_{t}St 和对应累计奖励 GtG_{t}Gt

N(St)←N(St)+1N(S_{t}) \leftarrow N(S_{t})+1N(St)N(St)+1

V(St)←V(St)+1N(St)(Gt−V(St))V(S_{t}) \leftarrow V(S_{t})+\frac{1}{N(S_{t})}(G_{t}-V(S_{t}))V(St)V(St)+N(St)1(GtV(St))

对于非稳定的问题(环境会随时间发生变化),我们可以跟踪一个现阶段的平均值(不考虑过久之前的片段)

V(St)←V(St)+α(Gt−V(St))V(S_{t}) \leftarrow V(S_{t})+\alpha(G_{t}-V(S_{t}))V(St)V(St)+α(GtV(St))

⇓\Downarrow

V(St)←(1−α)V(St)+αGtV(S_{t}) \leftarrow (1-\alpha)V(S_{t})+\alpha G_{t}V(St)(1α)V(St)+αGt

思路: V(St)≃1N∑i=1NGt(i)V(S_{t}) \simeq\frac{1}{N}\sum^{N}_{i=1}{G^{(i)}_{t}}V(St)N1i=1NGt(i)

实现: V(St)←V(St)+α(Gt−V(St))V(S_{t}) \leftarrow V(S_{t})+\alpha(G_{t}-V(S_{t}))V(St)V(St)+α(GtV(St))

总结

  • 蒙特卡洛方法:直接从经验片段进行学习
  • 蒙特卡洛是模型无关的:未知马尔可夫决策过程的状态转移/奖励
  • 蒙特卡洛从完整的片段中进行学习:没有使用bootstrapping的方法
  • 蒙特卡洛采用最简单的思想:值(value)= 平均累计奖励(mean return)

只能将蒙特卡洛方法应用于可分片段的马尔可夫决策过程中
即,所有的片段都有终止状态


为什么蒙特卡洛算法只能用于可分片段的马尔可夫决策过程?

可分片段的含义是该马尔可夫决策过程长度有限,这样才能计算总折扣奖励,在实际操作中,如果遇到非常长的马尔可夫链或者无限马尔可夫链,一般使用后面的课程会提到的时序差分学习

### 蒙特卡洛预测算法概述 蒙特卡洛方法是一种基于随机抽样的数值计算方法,广泛应用于求解复杂问题的近似解。其核心思想是通过大量的随机样本来估计结果,具备简单直观、灵活多样的特性[^3]。 对于21点游戏而言,蒙特卡洛预测算法能够有效评估不同策略的效果。具体来说,该算法利用大量模拟的游戏过程(情节),并依据这些过程中累积的经验来优化玩家决策路径的选择标准[^4]。 ### 关键概念解析 #### 经验与情节 - **经验**:指从环境中收集到的一系列交互记录;它可以由真实的或者仿真的方式得到。 - **情节**:代表一次完整的互动周期,始于初始状态直至达到某个结束条件为止的一个连续动作序列。 #### 完整回报与目标值 由于只有当一局游戏结束后才可得知最终得分情况,因此定义整个游戏期间所获总分作为完整回报\( G \),这也是蒙特卡罗预测的目标函数之一。 ### Python实现案例分析 为了更好地理解这一理论框架下的实践操作流程,下面给出了一段Python代码片段,展示了如何运用同策略首次访问蒙特卡洛算法完成简单的强化学习任务: ```python import numpy as np def generate_episode(policy, env): episode = [] state = env.reset() while True: action = policy[state] next_state, reward, done, _ = env.step(action) episode.append((state, action, reward)) if done: break state = next_state return episode def first_visit_mc_prediction(policy, env, num_episodes=500000, gamma=1.0): V = dict.fromkeys(range(env.observation_space.n), 0.0) N = {k: 0 for k in range(env.observation_space.n)} for i in range(1, num_episodes + 1): if i % 1000 == 0: print(f"\rEpisode {i}/{num_episodes}.", end="") episode = generate_episode(policy, env) states_in_episode = set([tuple(x)[:-1] for x in episode]) for (s, a, r) in reversed(episode): s_tup = tuple(s) if s_tup not in [(t[0], t[1]) for t in list(states_in_episode)]: continue G = sum(gamma**j * R for j, (_, _, R) in enumerate(reversed(episode[:len(episode)-list(zip(*episode))[0].index(s)+1]))) N[s] += 1 V[s] += (G - V[s]) / N[s] return V ``` 此部分代码实现了基本版本的第一访客型蒙特卡洛价值函数估算程序,适用于离散空间内的马尔科夫决策过程(MDP)。 ### 应用场景拓展思考 除了上述提到的例子外,蒙特卡洛预测还可以被用来处理更多类型的现实世界挑战,比如金融风险建模、物理仿真等领域。随着计算机性能不断提升和技术进步,这类依赖大规模采样的技术正变得越来越重要和实用。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值