1. 统计笔记之【随机逼近】

作者所有笔记均在知乎同步


一、随机逼近

随机逼近(Stochastic Approximation,SA)是一类处理带噪声数据的迭代优化方法,其核心思想是通过逐步修正估计值,在随机扰动环境下逼近真实参数或最优解。

可以描述这样一个场景:

当我们需要求解一个未知的 “目标量”(如参数、方程的根、函数的极值点等),但无法直接观测该目标量(但可以有依赖样本的显示表达),只能通过含噪声的随机样本间接获得其不精确的估计时,随机逼近提供了一套系统性的迭代更新规则,通过不断利用这些带噪声的观测值修正当前估计,最终使估计值逐步收敛到真实的目标量。

百度说随机逼近是[一种参数估计的方法],正确但不完整。

你可能觉得随机逼近概念很陌生,但它的应用你会比较熟悉,继续读下去。笔者注。


二、理论起源

该理论的系统性研究始于 20 世纪 50 年代,美国统计学家 Herbert Robbins 和 Sutton Monro 于 1951 年发表的《A Stochastic Approximation Method》奠定了理论基础,他们首次提出了处理噪声观测下根估计问题的迭代算法 [1]。

其理论背景可追溯至两个关键问题:

一是当观测数据受随机噪声污染时,如何估计一个函数的根或极值;

二是如何在序贯数据(Sequential Data)场景中实现实时迭代更新。与确定性优化方法(如梯度下降)不同,随机逼近的独特性在于:它不要求每次迭代的梯度或函数值观测无偏,仅需满足一定的噪声收敛条件,这使其在工程实践中具有更强的鲁棒性 [2]。


三、核心公式与算法

1. 罗宾斯 - 门罗(Robbins-Monro)算法

该算法针对 “寻找函数  f(\theta)=0  的根” 这一问题,即零点问题。其中观测值含噪声: Y_n = f(\theta_n) + \epsilon_n

Robbins-Monro 算法的迭代公式为:\theta_{n+1} = \theta_n - a_n (Y_n)

其中:

  1. \theta_n,为第n次迭代的参数估计值;
  2. a_n > 0,为步长序列(Step Size),需满足条件:\sum_{n=1}^{\infty} a_n = \infty 且 \sum_{n=1}^{\infty} a_n^2 < \infty
  3. \epsilon_n 为零均值随机噪声,满足\mathbb{E}[\epsilon_n | \theta_n] = 0 [1]。

步长条件的直观意义是:步长需足够大以保证收敛到真实值(和为无穷),同时足够小以抑制噪声累积(平方和有限)。

常见的步长形式为a_n = c/n(c>0为常数)。

2. 基弗 - 沃尔福维茨(Kiefer-Wolfowitz)算法

针对 “寻找函数M(\theta) = \mathbb{E}[Y|\theta]极值” 问题,Kiefer 和 Wolfowitz 于 1952 年提出通过差分近似梯度的迭代方法:

\theta_{n+1} = \theta_n + a_n \frac{Y_n(\theta_n + c_n) - Y_n(\theta_n - c_n)}{2c_n}

其中c_n为差分步长,需满足\lim_{n \to \infty} c_n = 0\sum_{n=1}^{\infty} a_n c_n = \infty[3]。

该算法通过双边采样近似梯度,为后续随机梯度下降(SGD)提供了理论原型。


三、典型模型与收敛性分析

1. 模型分类

1.1 根估计模型

以 Robbins-Monro 算法为核心,适用于参数辨识(如系统动力学模型参数估计);

1.2 极值搜索模型

基于 Kiefer-Wolfowitz 算法,用于未知函数的极值寻优(如自适应控制中的最优调节);

1.3 递归最小二乘(RLS)扩展模型

通过引入加权因子改进收敛速度,公式为\theta_{n+1} = \theta_n + \frac{a_n}{1 + a_n \phi_n^T \phi_n} \phi_n (y_n - \phi_n^T \theta_n),广泛应用于信号处理 [4]。

2. 收敛性理论

随机逼近的收敛性证明依赖于鞅论常微分方程(ODE)方法

一是鞅论框架:利用鞅差序列的收敛性证明\theta_n几乎必然收敛(a.s. 收敛)[5];

二是ODE 方法:将迭代序列\theta_n的极限行为等价于微分方程\dot{\theta} = h(\theta)的解,其中h(\theta)为平均化后的漂移项 [6]。


四、应用领域

1. 机器学习与优化

随机梯度下降(SGD)是 Kiefer-Wolfowitz 算法的现代变种。

恍然大悟了么。笔者注。

其公式\theta_{n+1} = \theta_n - \eta_n \nabla L(\theta_n; x_n, y_n)中,L为损失函数,(x_n, y_n)为随机采样的样本,\eta_n为学习率(即步长)。

SGD 在大规模数据集训练(如深度学习)中占据核心地位 [7]。

2. 自适应控制

在未知动态系统中,随机逼近用于实时估计控制器参数。

例如,模型参考自适应控制(MRAC)中,通过迭代修正反馈增益使系统输出跟踪参考模型 [8]。

3. 信号处理

最小均方(LMS)算法本质是 Robbins-Monro 算法的应用,用于自适应滤波器设计:

w_{n+1} = w_n + \mu e_n x_n

其中w_n为滤波器系数,e_n为误差信号,\mu为步长,广泛用于回声消除和信道均衡 [9]。

4. 统计学

用于非参数估计(如密度函数估计)和缺失数据填补,通过迭代修正估计值以应对数据噪声和不完整性 [10]。


五、扩展与现代发展

1. 多变量随机逼近

将标量算法推广至向量参数,需考虑步长矩阵的设计 [11];

2. 带约束的随机逼近

结合投影算子处理参数的可行域限制 [12];

3. 与强化学习结合:

在策略迭代中,利用随机逼近估计价值函数和最优策略 [13]。

这将是下一篇博文的内容。笔者注。


六、参考资料

[1] Robbins, H., & Monro, S. (1951). A stochastic approximation method. The Annals of Mathematical Statistics, 400-407.

[2] Borkar, V. S. (2008). Stochastic approximation: a dynamical systems viewpoint. Cambridge University Press.

[3] Kiefer, J., & Wolfowitz, J. (1952). Stochastic estimation of the maximum of a regression function. The Annals of Mathematical Statistics, 462-466.

[4] Ljung, L. (1999). System identification: theory for the user (2nd ed.). Prentice Hall.

[5] Dvoretzky, A. (1956). On the convergence of stochastic approximation. Proceedings of the Third Berkeley Symposium on Mathematical Statistics and Probability, 1, 39-55.

[6] Kushner, H. J., & Clark, D. S. (2012). Stochastic approximation methods for constrained and unconstrained systems. Springer Science & Business Media.

[7] Bottou, L. (2010). Large-scale machine learning with stochastic gradient descent. In Proceedings of COMPSTAT'2010 (pp. 177-186). Springer.

[8] Ioannou, P. A., & Sun, J. (2012). Robust adaptive control. Courier Corporation.

[9] Haykin, S. (2002). Adaptive filter theory (4th ed.). Prentice Hall.

[10] Geman, S., & Geman, D. (1984). Stochastic relaxation, Gibbs distributions, and the Bayesian restoration of images. IEEE Transactions on pattern analysis and machine intelligence, (6), 721-741.

[11] Metivier, M., & Priouret, P. (2000). Stochastic approximation and recursive algorithms and applications. Springer.

[12] Polyak, B. T. (1990). Introduction to optimization. Optimization Software.

[13] Bertsekas, D. P. (2019). Dynamic programming and optimal control (Vol. 2). Athena Scientific.


更多的文章请关注该文章解读系列,我会持续更新。

欢迎各位读者在评论区交流讨论。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值