蒙特卡洛首次/每次访问型方法的收敛性证明
1. 理论基础
关于什么是首次,什么是每次访问型MC,我这里就不再赘述了,直接开始讨论收敛性
1.1 价值函数定义
首先对于任意的s在π\piπ的价值函数为,回报函数的期望
Vπ(s)=Eπ[Gt∣St=s]V_{\pi}(s) = \mathbb{E}_{\pi}[G_t|S_t=s]Vπ(s)=Eπ[Gt∣St=s] 表示t时刻的状态为s,后续的所有的回报之和
蒙特卡洛估计,统计每一次的出现的s的回报的平均值作为s的价值函数的估计,显然其中n是出现的次数,无论此时是每次还是首次MC :
V^n(s)=1n∑i=1nGi(s)\hat{V}_n(s) = \frac{1}{n}\sum_{i=1}^n G_i(s)V^n(s)=n1∑i=1nGi(s)
2. 无偏性证明
2.1 基本定理
两种访问型蒙特卡洛估计是无偏的,即:
E[V^n(s)]=E[Vπ(s)]=Vπ(s)\mathbb{E}[\hat{V}_n(s)] = E[V_{\pi}(s)] = V_{\pi}(s)E[V^n(s)]=E[Vπ(s)]=Vπ(s) 因为V本身就是期望的形式了
2.2 证明步骤
-
首先,对于每个回报Gi(s)G_i(s)Gi(s),有:
E[Gi(s)∣St=s]=Vπ(s)\mathbb{E}[G_i(s)|S_t=s] = V_{\pi}(s)E[Gi(s)∣St=s]=Vπ(s)
需要注意的是: 上面的式子在首次访问型MC是显然成立的,但是对于每次访问型我们需要保证MDP的性质,因为保证后面的s的回报和第一次的访问的事件无关,如果满足MDP性质,那么自然也成立 -
由期望的线性性质:
E[V^n(s)]=E[1n∑i=1nGi(s)]\mathbb{E}[\hat{V}_n(s)] = \mathbb{E}[\frac{1}{n}\sum_{i=1}^n G_i(s)]E[V^n(s)]=E[n1∑i=1nGi(s)]
=1n∑i=1nE[Gi(s)]= \frac{1}{n}\sum_{i=1}^n \mathbb{E}[G_i(s)]=n1∑i=1nE[Gi(s)]
=1n∑i=1nVπ(s)= \frac{1}{n}\sum_{i=1}^n V_{\pi}(s)=n1∑i=1nVπ(s)
=Vπ(s)= V_{\pi}(s)=Vπ(s)
我们首先证明了在MDP的形式下,蒙特卡洛的估计对于价值函数是一个无偏的估计
- 其中方差分析:
Var(V^n(s))=Var(G(s))nVar(\hat{V}_n(s)) = \frac{Var(G(s))}{n}Var(V^n(s))=nVar(G(s))
3. 收敛性证明
我们将会使用大数定律来证明收敛性,当满足样本独立的时候,当样本数量趋于无穷时,样本均值收
如同前面的证明,每幕的首次显然是独立的,满足MDP状态的每次也是独立的样本都
3.1 大数定律应用
根据大数定律,
limn→∞V^n(s)=Vπ(s)\lim_{n \to \infty} \hat{V}_n(s) = V_{\pi}(s)limn→∞V^n(s)=Vπ(s) (概率收敛)
3.2 收敛速度分析
-
方差分析:
Var(V^n(s))=Var(G(s))nVar(\hat{V}_n(s)) = \frac{Var(G(s))}{n}Var(V^n(s))=nVar(G(s))
-
标准差随n\sqrt{n}n减小:
σV^n(s)=σG(s)n\sigma_{\hat{V}_n(s)} = \frac{\sigma_{G(s)}}{\sqrt{n}}σV^n(s)=nσG(s)
所以只要访问的次数趋向于无穷大,那么将会收敛到期望值,并满足一个正态分布
3.3 信心区间
对于给定的置信度1−α1-\alpha1−α,可以构建置信区间:
P(∣V^n(s)−Vπ(s)∣≤zα/2σG(s)n)=1−αP(|\hat{V}_n(s) - V_{\pi}(s)| \leq z_{\alpha/2}\frac{\sigma_{G(s)}}{\sqrt{n}}) = 1-\alphaP(∣V^n(s)−Vπ(s)∣≤zα/2nσG(s))=1−α
4. 收敛条件
4.1 必要条件
-
回报的方差必须有限:
Var(G(s))<∞Var(G(s)) < \inftyVar(G(s))<∞ -
每个状态都能被无限次访问:
limn→∞N(s)=∞\lim_{n \to \infty} N(s) = \inftylimn→∞N(s)=∞
对于使用γ\gammaγ的回报,这是一个显然的结果,等比数列的系数是有限的,单个回报的上限显然也是有界的,具体的证明可以参考前面的章节
- 马尔可夫性质成立
4.2 得到我们的充分条件
- 策略π\piπ是固定的(不变的),这里在涉及后面的off line的模式很重要
- 所有回合都是独立同分布的
- 折扣因子γ<1\gamma < 1γ<1
5. 实际应用中的考虑
5.1 有限样本情况
实际应用中,我们只能获得有限样本。这时需要考虑:
- 置信度边界:
V^n(s)±clog(1/δ)2n\hat{V}_n(s) \pm c\sqrt{\frac{\log(1/\delta)}{2n}}V^n(s)±c2nlog(1/δ)
5.2 实践建议
- 使用足够多的样本
- 监控估计值的方差
- 考虑使用方差减小技术
6. 理论扩展
6.1 函数逼近情况
当使用函数逼近时,收敛性证明需要额外考虑:
- 近似器的表达能力
- 优化算法的收敛性
- 采样分布的影响
6.2 收敛速率
E[(V^n(s)−Vπ(s))2]≤Var(G(s))n\mathbb{E}[(\hat{V}_n(s) - V_{\pi}(s))^2] \leq \frac{Var(G(s))}{n}E[(V^n(s)−Vπ(s))2]≤nVar(G(s))
7. 小结
蒙特卡洛每次访问型方法的收敛性基于:
- 大数定律保证了收敛性
- 独立同分布采样保证了无偏性
- 有限方差保证了收敛速度
- 充分的探索保证了全局收敛
这些理论保证使得蒙特卡洛方法在实践中成为一个可靠的选择。但同时,我们也需要注意样本效率和收敛速度的实际问题。