【强化学习】强化学习数学基础：随机近似理论与随机梯度下降

最新推荐文章于 2025-12-16 23:31:41 发布

原创

最新推荐文章于 2025-12-16 23:31:41 发布 · 1.6k 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#强化学习 #SGD #BGD #MBGD #RM算法

文章详细介绍了强化学习中涉及到的随机近似理论，包括随机梯度下降（SGD）和Robbins-Monro算法。这些算法在处理如均值估计和优化问题时，通过迭代和增量计算逐步逼近目标。文中还探讨了算法的收敛性和不同步长（学习率）的选择对收敛速度的影响，以及批量梯度下降（BGD）、小批量梯度下降（MBGD）与SGD的区别。

强化学习数学基础：随机近似理论与随机梯度下降

Stochastic Approximation and Stochastic Gradient Descent

Stochastic Approximation and Stochastic Gradient Descent

举个例子

首先回顾mean estimation：

考虑一个random variable X。
目标是估计 $\mathbb{E}[X]$
假设已经有了一系列随机独立同分布的样本 ${x_i\}_{i=1}^N$
X的expection可以被估计为 $\mathbb{E}[X]\approx \bar{x}:=\frac{1}{N}\sum_{i=1}^N x_i$

已经知道这个估计的基本想法是Monte Carlo estimation，以及 $\bar{x}\rightarrow \mathbb{E}$ ，随着 $N\rightarrow \infty$ 。这里为什么又要关注mean estimation，那是因为在强化学习中许多value被定义为means，例如state/action value。

新的问题：如何计算mean $bar{x}$ ： $\mathbb{E}[X]\approx \bar{x}:=\frac{1}{N}\sum_{i=1}^N x_i$
我们有两种方式：

第一种方法：简单地，收集所有样本，然后计算平均值。但是该方法的缺点是如果样本是一个接一个的被收集，那么就必须等待所有样本收集完成才能计算
第二种方法：可以克服第一种方法的缺点，用一种incremental（增量式）和iterative（迭代式）的方式计算average。

具体地，假设 $w_{k+1}=\frac{1}{k}\sum_{i=1}^k x_i, k=1,2,...$ 然后有 $w_k=\frac{1}{k-1}\sum_{i=1}^{k-1} x_i, k=2,3,...$ ，我们要建立 $w_k$ 和 $w_{k+1}$ 之间的关系，用 $w_k$ 表达 $w_{k+1}$ ： $w_{k+1}=\frac{1}{k}\sum_{i=1}^k x_i=\frac{1}{k}(\sum_{i=1}^{k-1}x_i+x_k)=\frac{1}{k}((k-1)w_k+x_k)=w_k-\frac{1}{k}(w_k-x_k)$ 因此，获得了如下的迭代算法： $w_{k+1}=w_k-\frac{1}{k}(w_k-x_k)$
我们使用上面的迭代算法增量式地计算x的mean：
增量式求和
这样就得到了一个求平均数的迭代式的算法。算法的优势是在第k步的时候不需要把前面所有的 $x_i$ 全部加起来再求平均，可以在得到一个样本的时候立即求平均。另外这个算法也代表了一种增量式的计算思想，在最开始的时候因为 $k$ 比较小， $w_k\ne \mathbb{E}[X]$ ，但是随着获得样本数的增加，估计的准确度会逐渐提高，也就是 $w_k\rightarrow \mathbb{E}[X] \text{ as } k\rightarrow N$ 。

更进一步地，将上述算法用一个更泛化的形式表示为： $w_{k+1}=w_k-\alpha_k(w_k-x_k)$ ，其中 $1/ k$ 被替换为 $\alpha_k >0$ 。

该算法是否会收敛到mean $\mathbb{E}[X]$ ？答案是Yes，如果 $\{\alpha_k\}$ 满足某些条件的时候
该算法也是一种特殊的SA algorithm和stochastic gradient descent algorithm

Robbins-Monro algorithm

算法描述

Stochastic approximation (SA):

SA代表了一大类的stochastic iterative algorithm，用来求解方程的根或者优化问题。
与其他求根相比，例如gradient-based method， SA的强大之处在于：它不需要知道目标函数的表达式，也不知道它的导数或者梯度表达式。

Robbins-Monro (RM) algorithm:

This is a pioneering work in the field of stochastic approximation.
著名的stochastic gradient descent algorithm是RM算法的一个特殊形式。
It can be used to analyze the mean estimation algorithms introduced in the beginning。