1. 统计笔记之【随机逼近】

DerDuo_

于 2025-08-05 21:19:25 发布

阅读量652

点赞数 11

CC 4.0 BY-SA版权

分类专栏： DerDuo的学习笔记文章标签：笔记机器学习数学建模

本文链接：https://blog.youkuaiyun.com/DerDuo_/article/details/149943807

DerDuo的学习笔记专栏收录该内容

1 篇文章

订阅专栏

作者所有笔记均在知乎同步。

一、随机逼近

随机逼近（Stochastic Approximation，SA）是一类处理带噪声数据的迭代优化方法，其核心思想是通过逐步修正估计值，在随机扰动环境下逼近真实参数或最优解。

可以描述这样一个场景：

当我们需要求解一个未知的 “目标量”（如参数、方程的根、函数的极值点等），但无法直接观测该目标量（但可以有依赖样本的显示表达），只能通过含噪声的随机样本间接获得其不精确的估计时，随机逼近提供了一套系统性的迭代更新规则，通过不断利用这些带噪声的观测值修正当前估计，最终使估计值逐步收敛到真实的目标量。

百度说随机逼近是[一种参数估计的方法]，正确但不完整。

你可能觉得随机逼近概念很陌生，但它的应用你会比较熟悉，继续读下去。笔者注。

二、理论起源

该理论的系统性研究始于 20 世纪 50 年代，美国统计学家 Herbert Robbins 和 Sutton Monro 于 1951 年发表的《A Stochastic Approximation Method》奠定了理论基础，他们首次提出了处理噪声观测下根估计问题的迭代算法 [1]。

其理论背景可追溯至两个关键问题：

一是当观测数据受随机噪声污染时，如何估计一个函数的根或极值；

二是如何在序贯数据（Sequential Data）场景中实现实时迭代更新。与确定性优化方法（如梯度下降）不同，随机逼近的独特性在于：它不要求每次迭代的梯度或函数值观测无偏，仅需满足一定的噪声收敛条件，这使其在工程实践中具有更强的鲁棒性 [2]。

三、核心公式与算法

1. 罗宾斯 - 门罗（Robbins-Monro）算法

该算法针对 “寻找函数 $f(\theta)=0$ 的根” 这一问题，即零点问题。其中观测值含噪声： $Y_n = f(\theta_n) + \epsilon_n$ 。

Robbins-Monro 算法的迭代公式为： $\theta_{n+1} = \theta_n - a_n (Y_n)$

其中：

$\theta_n$ ，为第 $n$ 次迭代的参数估计值；
$a_n > 0$ ，为步长序列（Step Size），需满足条件： $\sum_{n=1}^{\infty} a_n = \infty$ 且 $\sum_{n=1}^{\infty} a_n^2 < \infty$ ；
$\epsilon_n$ 为零均值随机噪声，满足 $\mathbb{E}[\epsilon_n | \theta_n] = 0$ [1]。

步长条件的直观意义是：步长需足够大以保证收敛到真实值（和为无穷），同时足够小以抑制噪声累积（平方和有限）。

常见的步长形式为 $a_n = c/n$ （c>0为常数）。

2. 基弗 - 沃尔福维茨（Kiefer-Wolfowitz）算法

针对 “寻找函数 $M(\theta) = \mathbb{E}[Y|\theta]$ 的极值” 问题，Kiefer 和 Wolfowitz 于 1952 年提出通过差分近似梯度的迭代方法：

$\theta_{n+1} = \theta_n + a_n \frac{Y_n(\theta_n + c_n) - Y_n(\theta_n - c_n)}{2c_n}$ 。

其中 $c_n$ 为差分步长，需满足 $\lim_{n \to \infty} c_n = 0$ 且 $\sum_{n=1}^{\infty} a_n c_n = \infty$ [3]。

该算法通过双边采样近似梯度，为后续随机梯度下降（SGD）提供了理论原型。

三、典型模型与收敛性分析

1. 模型分类

1.1 根估计模型：

以 Robbins-Monro 算法为核心，适用于参数辨识（如系统动力学模型参数估计）；

1.2 极值搜索模型：

基于 Kiefer-Wolfowitz 算法，用于未知函数的极值寻优（如自适应控制中的最优调节）；

1.3 递归最小二乘（RLS）扩展模型：

通过引入加权因子改进收敛速度，公式为 $\theta_{n+1} = \theta_n + \frac{a_n}{1 + a_n \phi_n^T \phi_n} \phi_n (y_n - \phi_n^T \theta_n)$ ，广泛应用于信号处理 [4]。

2. 收敛性理论

随机逼近的收敛性证明依赖于鞅论和常微分方程（ODE）方法：

一是鞅论框架：利用鞅差序列的收敛性证明 $\theta_n$ 几乎必然收敛（a.s. 收敛）[5]；

二是ODE 方法：将迭代序列 $\theta_n$ 的极限行为等价于微分方程 $\dot{\theta} = h(\theta)$ 的解，其中 $h(\theta)$ 为平均化后的漂移项 [6]。

四、应用领域

1. 机器学习与优化

随机梯度下降（SGD）是 Kiefer-Wolfowitz 算法的现代变种。

恍然大悟了么。笔者注。

其公式 $\theta_{n+1} = \theta_n - \eta_n \nabla L(\theta_n; x_n, y_n)$ 中， $L$ 为损失函数， $(x_n, y_n)$ 为随机采样的样本， $\eta_n$ 为学习率（即步长）。

SGD 在大规模数据集训练（如深度学习）中占据核心地位 [7]。

2. 自适应控制

在未知动态系统中，随机逼近用于实时估计控制器参数。

例如，模型参考自适应控制（MRAC）中，通过迭代修正反馈增益使系统输出跟踪参考模型 [8]。

3. 信号处理

最小均方（LMS）算法本质是 Robbins-Monro 算法的应用，用于自适应滤波器设计：

$w_{n+1} = w_n + \mu e_n x_n$

其中 $w_n$ 为滤波器系数， $e_n$ 为误差信号， $\mu$ 为步长，广泛用于回声消除和信道均衡 [9]。

4. 统计学

用于非参数估计（如密度函数估计）和缺失数据填补，通过迭代修正估计值以应对数据噪声和不完整性 [10]。

五、扩展与现代发展

1. 多变量随机逼近：

将标量算法推广至向量参数，需考虑步长矩阵的设计 [11]；

2. 带约束的随机逼近：

结合投影算子处理参数的可行域限制 [12]；

3. 与强化学习结合：

在策略迭代中，利用随机逼近估计价值函数和最优策略 [13]。

这将是下一篇博文的内容。笔者注。

六、参考资料

[1] Robbins, H., & Monro, S. (1951). A stochastic approximation method. The Annals of Mathematical Statistics, 400-407.

[2] Borkar, V. S. (2008). Stochastic approximation: a dynamical systems viewpoint. Cambridge University Press.

[3] Kiefer, J., & Wolfowitz, J. (1952). Stochastic estimation of the maximum of a regression function. The Annals of Mathematical Statistics, 462-466.

[4] Ljung, L. (1999). System identification: theory for the user (2nd ed.). Prentice Hall.

[5] Dvoretzky, A. (1956). On the convergence of stochastic approximation. Proceedings of the Third Berkeley Symposium on Mathematical Statistics and Probability, 1, 39-55.

[6] Kushner, H. J., & Clark, D. S. (2012). Stochastic approximation methods for constrained and unconstrained systems. Springer Science & Business Media.

[7] Bottou, L. (2010). Large-scale machine learning with stochastic gradient descent. In Proceedings of COMPSTAT'2010 (pp. 177-186). Springer.

[8] Ioannou, P. A., & Sun, J. (2012). Robust adaptive control. Courier Corporation.

[9] Haykin, S. (2002). Adaptive filter theory (4th ed.). Prentice Hall.

[10] Geman, S., & Geman, D. (1984). Stochastic relaxation, Gibbs distributions, and the Bayesian restoration of images. IEEE Transactions on pattern analysis and machine intelligence, (6), 721-741.

[11] Metivier, M., & Priouret, P. (2000). Stochastic approximation and recursive algorithms and applications. Springer.

[12] Polyak, B. T. (1990). Introduction to optimization. Optimization Software.

[13] Bertsekas, D. P. (2019). Dynamic programming and optimal control (Vol. 2). Athena Scientific.

更多的文章请关注该文章解读系列，我会持续更新。

欢迎各位读者在评论区交流讨论。