蒙特卡洛--首次/每次访问型MC算法的收敛性证明

蒙特卡洛首次/每次访问型方法的收敛性证明

1. 理论基础

关于什么是首次,什么是每次访问型MC,我这里就不再赘述了,直接开始讨论收敛性

1.1 价值函数定义

首先对于任意的s在π\piπ的价值函数为,回报函数的期望
Vπ(s)=Eπ[Gt∣St=s]V_{\pi}(s) = \mathbb{E}_{\pi}[G_t|S_t=s]Vπ(s)=Eπ[GtSt=s] 表示t时刻的状态为s,后续的所有的回报之和

蒙特卡洛估计,统计每一次的出现的s的回报的平均值作为s的价值函数的估计,显然其中n是出现的次数,无论此时是每次还是首次MC :
V^n(s)=1n∑i=1nGi(s)\hat{V}_n(s) = \frac{1}{n}\sum_{i=1}^n G_i(s)V^n(s)=n1i=1nGi(s)

2. 无偏性证明

2.1 基本定理

两种访问型蒙特卡洛估计是无偏的,即:

E[V^n(s)]=E[Vπ(s)]=Vπ(s)\mathbb{E}[\hat{V}_n(s)] = E[V_{\pi}(s)] = V_{\pi}(s)E[V^n(s)]=E[Vπ(s)]=Vπ(s) 因为V本身就是期望的形式了

2.2 证明步骤

  1. 首先,对于每个回报Gi(s)G_i(s)Gi(s),有:
    E[Gi(s)∣St=s]=Vπ(s)\mathbb{E}[G_i(s)|S_t=s] = V_{\pi}(s)E[Gi(s)St=s]=Vπ(s)
    需要注意的是: 上面的式子在首次访问型MC是显然成立的,但是对于每次访问型我们需要保证MDP的性质,因为保证后面的s的回报和第一次的访问的事件无关,如果满足MDP性质,那么自然也成立

  2. 由期望的线性性质:

    E[V^n(s)]=E[1n∑i=1nGi(s)]\mathbb{E}[\hat{V}_n(s)] = \mathbb{E}[\frac{1}{n}\sum_{i=1}^n G_i(s)]E[V^n(s)]=E[n1i=1nGi(s)]

    =1n∑i=1nE[Gi(s)]= \frac{1}{n}\sum_{i=1}^n \mathbb{E}[G_i(s)]=n1i=1nE[Gi(s)]

    =1n∑i=1nVπ(s)= \frac{1}{n}\sum_{i=1}^n V_{\pi}(s)=n1i=1nVπ(s)

    =Vπ(s)= V_{\pi}(s)=Vπ(s)

我们首先证明了在MDP的形式下,蒙特卡洛的估计对于价值函数是一个无偏的估计

  1. 其中方差分析:
    Var(V^n(s))=Var(G(s))nVar(\hat{V}_n(s)) = \frac{Var(G(s))}{n}Var(V^n(s))=nVar(G(s))

3. 收敛性证明

我们将会使用大数定律来证明收敛性,当满足样本独立的时候,当样本数量趋于无穷时,样本均值收
如同前面的证明,每幕的首次显然是独立的,满足MDP状态的每次也是独立的样本都

3.1 大数定律应用

根据大数定律,

lim⁡n→∞V^n(s)=Vπ(s)\lim_{n \to \infty} \hat{V}_n(s) = V_{\pi}(s)limnV^n(s)=Vπ(s) (概率收敛)

3.2 收敛速度分析

  1. 方差分析:

    Var(V^n(s))=Var(G(s))nVar(\hat{V}_n(s)) = \frac{Var(G(s))}{n}Var(V^n(s))=nVar(G(s))

  2. 标准差随n\sqrt{n}n减小:

    σV^n(s)=σG(s)n\sigma_{\hat{V}_n(s)} = \frac{\sigma_{G(s)}}{\sqrt{n}}σV^n(s)=nσG(s)

所以只要访问的次数趋向于无穷大,那么将会收敛到期望值,并满足一个正态分布

3.3 信心区间

对于给定的置信度1−α1-\alpha1α,可以构建置信区间:

P(∣V^n(s)−Vπ(s)∣≤zα/2σG(s)n)=1−αP(|\hat{V}_n(s) - V_{\pi}(s)| \leq z_{\alpha/2}\frac{\sigma_{G(s)}}{\sqrt{n}}) = 1-\alphaP(V^n(s)Vπ(s)zα/2nσG(s))=1α

4. 收敛条件

4.1 必要条件

  1. 回报的方差必须有限:
    Var(G(s))<∞Var(G(s)) < \inftyVar(G(s))<

  2. 每个状态都能被无限次访问:
    lim⁡n→∞N(s)=∞\lim_{n \to \infty} N(s) = \inftylimnN(s)=

对于使用γ\gammaγ的回报,这是一个显然的结果,等比数列的系数是有限的,单个回报的上限显然也是有界的,具体的证明可以参考前面的章节

  1. 马尔可夫性质成立

4.2 得到我们的充分条件

  1. 策略π\piπ是固定的(不变的),这里在涉及后面的off line的模式很重要
  2. 所有回合都是独立同分布的
  3. 折扣因子γ<1\gamma < 1γ<1

5. 实际应用中的考虑

5.1 有限样本情况

实际应用中,我们只能获得有限样本。这时需要考虑:

  1. 置信度边界:
    V^n(s)±clog⁡(1/δ)2n\hat{V}_n(s) \pm c\sqrt{\frac{\log(1/\delta)}{2n}}V^n(s)±c2nlog(1/δ)

5.2 实践建议

  1. 使用足够多的样本
  2. 监控估计值的方差
  3. 考虑使用方差减小技术

6. 理论扩展

6.1 函数逼近情况

当使用函数逼近时,收敛性证明需要额外考虑:

  1. 近似器的表达能力
  2. 优化算法的收敛性
  3. 采样分布的影响

6.2 收敛速率

E[(V^n(s)−Vπ(s))2]≤Var(G(s))n\mathbb{E}[(\hat{V}_n(s) - V_{\pi}(s))^2] \leq \frac{Var(G(s))}{n}E[(V^n(s)Vπ(s))2]nVar(G(s))

7. 小结

蒙特卡洛每次访问型方法的收敛性基于:

  1. 大数定律保证了收敛性
  2. 独立同分布采样保证了无偏性
  3. 有限方差保证了收敛速度
  4. 充分的探索保证了全局收敛

这些理论保证使得蒙特卡洛方法在实践中成为一个可靠的选择。但同时,我们也需要注意样本效率和收敛速度的实际问题。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值