蒙特卡洛--首次/每次访问型MC算法的收敛性证明

最新推荐文章于 2025-04-28 21:30:36 发布

原创最新推荐文章于 2025-04-28 21:30:36 发布 · 1k 阅读

CC 4.0 BY-SA版权

文章标签：

22 篇文章

订阅专栏

蒙特卡洛首次/每次访问型方法的收敛性证明

关于什么是首次，什么是每次访问型MC，我这里就不再赘述了，直接开始讨论收敛性

首先对于任意的s在 $π\pi$ 的价值函数为，回报函数的期望
$Vπ(s)=Eπ[Gt∣St=s]V_{\pi}(s) = \mathbb{E}_{\pi}[G_t|S_t=s]$ 表示t时刻的状态为s，后续的所有的回报之和

蒙特卡洛估计，统计每一次的出现的s的回报的平均值作为s的价值函数的估计，显然其中n是出现的次数，无论此时是每次还是首次MC ：
$V^n(s)=1n∑i=1nGi(s)\hat{V}_n(s) = \frac{1}{n}\sum_{i=1}^n G_i(s)$

两种访问型蒙特卡洛估计是无偏的，即：

$E[V^n(s)]=E[Vπ(s)]=Vπ(s)\mathbb{E}[\hat{V}_n(s)] = E[V_{\pi}(s)] = V_{\pi}(s)$ 因为V本身就是期望的形式了

首先，对于每个回报 $G_i(s)$ ，有：
$E[Gi(s)∣St=s]=Vπ(s)\mathbb{E}[G_i(s)|S_t=s] = V_{\pi}(s)$
需要注意的是：上面的式子在首次访问型MC是显然成立的，但是对于每次访问型我们需要保证MDP的性质，因为保证后面的s的回报和第一次的访问的事件无关，如果满足MDP性质，那么自然也成立
由期望的线性性质：

$E[V^n(s)]=E[1n∑i=1nGi(s)]\mathbb{E}[\hat{V}_n(s)] = \mathbb{E}[\frac{1}{n}\sum_{i=1}^n G_i(s)]$

$\frac{1}{n}\sum_{i=1}^n \mathbb{E}[G_i(s)]$

$\frac{1}{n}\sum_{i=1}^n V_{\pi}(s)$

$V_{\pi}(s)$

我们首先证明了在MDP的形式下，蒙特卡洛的估计对于价值函数是一个无偏的估计

我们将会使用大数定律来证明收敛性，当满足样本独立的时候，当样本数量趋于无穷时，样本均值收
如同前面的证明，每幕的首次显然是独立的，满足MDP状态的每次也是独立的样本都

根据大数定律，

$lim⁡n→∞V^n(s)=Vπ(s)\lim_{n \to \infty} \hat{V}_n(s) = V_{\pi}(s)$ (概率收敛)

方差分析：

$Var(V^n(s))=Var(G(s))nVar(\hat{V}_n(s)) = \frac{Var(G(s))}{n}$
标准差随 $n\sqrt{n}$ 减小：

$σV^n(s)=σG(s)n\sigma_{\hat{V}_n(s)} = \frac{\sigma_{G(s)}}{\sqrt{n}}$