作者所有笔记均在知乎同步。
一、随机逼近
随机逼近(Stochastic Approximation,SA)是一类处理带噪声数据的迭代优化方法,其核心思想是通过逐步修正估计值,在随机扰动环境下逼近真实参数或最优解。
可以描述这样一个场景:
当我们需要求解一个未知的 “目标量”(如参数、方程的根、函数的极值点等),但无法直接观测该目标量(但可以有依赖样本的显示表达),只能通过含噪声的随机样本间接获得其不精确的估计时,随机逼近提供了一套系统性的迭代更新规则,通过不断利用这些带噪声的观测值修正当前估计,最终使估计值逐步收敛到真实的目标量。
百度说随机逼近是[一种参数估计的方法],正确但不完整。
你可能觉得随机逼近概念很陌生,但它的应用你会比较熟悉,继续读下去。笔者注。
二、理论起源
该理论的系统性研究始于 20 世纪 50 年代,美国统计学家 Herbert Robbins 和 Sutton Monro 于 1951 年发表的《A Stochastic Approximation Method》奠定了理论基础,他们首次提出了处理噪声观测下根估计问题的迭代算法 [1]。
其理论背景可追溯至两个关键问题:
一是当观测数据受随机噪声污染时,如何估计一个函数的根或极值;
二是如何在序贯数据(Sequential Data)场景中实现实时迭代更新。与确定性优化方法(如梯度下降)不同,随机逼近的独特性在于:它不要求每次迭代的梯度或函数值观测无偏,仅需满足一定的噪声收敛条件,这使其在工程实践中具有更强的鲁棒性 [2]。
三、核心公式与算法
1. 罗宾斯 - 门罗(Robbins-Monro)算法
该算法针对 “寻找函数 的根” 这一问题,即零点问题。其中观测值含噪声:
。
Robbins-Monro 算法的迭代公式为:
其中:
,为第
次迭代的参数估计值;
,为步长序列(Step Size),需满足条件:
且
;
为零均值随机噪声,满足
[1]。
步长条件的直观意义是:步长需足够大以保证收敛到真实值(和为无穷),同时足够小以抑制噪声累积(平方和有限)。
常见的步长形式为(c>0为常数)。
2. 基弗 - 沃尔福维茨(Kiefer-Wolfowitz)算法
针对 “寻找函数的极值” 问题,Kiefer 和 Wolfowitz 于 1952 年提出通过差分近似梯度的迭代方法:
。
其中为差分步长,需满足
且
[3]。
该算法通过双边采样近似梯度,为后续随机梯度下降(SGD)提供了理论原型。
三、典型模型与收敛性分析
1. 模型分类
1.1 根估计模型:
以 Robbins-Monro 算法为核心,适用于参数辨识(如系统动力学模型参数估计);
1.2 极值搜索模型:
基于 Kiefer-Wolfowitz 算法,用于未知函数的极值寻优(如自适应控制中的最优调节);
1.3 递归最小二乘(RLS)扩展模型:
通过引入加权因子改进收敛速度,公式为,广泛应用于信号处理 [4]。
2. 收敛性理论
随机逼近的收敛性证明依赖于鞅论和常微分方程(ODE)方法:
一是鞅论框架:利用鞅差序列的收敛性证明几乎必然收敛(a.s. 收敛)[5];
二是ODE 方法:将迭代序列的极限行为等价于微分方程
的解,其中
为平均化后的漂移项 [6]。
四、应用领域
1. 机器学习与优化
随机梯度下降(SGD)是 Kiefer-Wolfowitz 算法的现代变种。
恍然大悟了么。笔者注。
其公式中,
为损失函数,
为随机采样的样本,
为学习率(即步长)。
SGD 在大规模数据集训练(如深度学习)中占据核心地位 [7]。
2. 自适应控制
在未知动态系统中,随机逼近用于实时估计控制器参数。
例如,模型参考自适应控制(MRAC)中,通过迭代修正反馈增益使系统输出跟踪参考模型 [8]。
3. 信号处理
最小均方(LMS)算法本质是 Robbins-Monro 算法的应用,用于自适应滤波器设计:
其中为滤波器系数,
为误差信号,
为步长,广泛用于回声消除和信道均衡 [9]。
4. 统计学
用于非参数估计(如密度函数估计)和缺失数据填补,通过迭代修正估计值以应对数据噪声和不完整性 [10]。
五、扩展与现代发展
1. 多变量随机逼近:
将标量算法推广至向量参数,需考虑步长矩阵的设计 [11];
2. 带约束的随机逼近:
结合投影算子处理参数的可行域限制 [12];
3. 与强化学习结合:
在策略迭代中,利用随机逼近估计价值函数和最优策略 [13]。
这将是下一篇博文的内容。笔者注。
六、参考资料
[1] Robbins, H., & Monro, S. (1951). A stochastic approximation method. The Annals of Mathematical Statistics, 400-407.
[2] Borkar, V. S. (2008). Stochastic approximation: a dynamical systems viewpoint. Cambridge University Press.
[3] Kiefer, J., & Wolfowitz, J. (1952). Stochastic estimation of the maximum of a regression function. The Annals of Mathematical Statistics, 462-466.
[4] Ljung, L. (1999). System identification: theory for the user (2nd ed.). Prentice Hall.
[5] Dvoretzky, A. (1956). On the convergence of stochastic approximation. Proceedings of the Third Berkeley Symposium on Mathematical Statistics and Probability, 1, 39-55.
[6] Kushner, H. J., & Clark, D. S. (2012). Stochastic approximation methods for constrained and unconstrained systems. Springer Science & Business Media.
[7] Bottou, L. (2010). Large-scale machine learning with stochastic gradient descent. In Proceedings of COMPSTAT'2010 (pp. 177-186). Springer.
[8] Ioannou, P. A., & Sun, J. (2012). Robust adaptive control. Courier Corporation.
[9] Haykin, S. (2002). Adaptive filter theory (4th ed.). Prentice Hall.
[10] Geman, S., & Geman, D. (1984). Stochastic relaxation, Gibbs distributions, and the Bayesian restoration of images. IEEE Transactions on pattern analysis and machine intelligence, (6), 721-741.
[11] Metivier, M., & Priouret, P. (2000). Stochastic approximation and recursive algorithms and applications. Springer.
[12] Polyak, B. T. (1990). Introduction to optimization. Optimization Software.
[13] Bertsekas, D. P. (2019). Dynamic programming and optimal control (Vol. 2). Athena Scientific.
更多的文章请关注该文章解读系列,我会持续更新。
欢迎各位读者在评论区交流讨论。