强化学习06——随机近似和随机梯度下降

原创

已于 2023-11-13 16:02:59 修改 · 775 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #机器学习

于 2023-11-12 16:44:48 首次发布

本文介绍了在强化学习背景下，Robbins-Monro算法用于求解未知函数根的方法，包括随机梯度下降的原理及其收敛性分析，以及与StochasticApproximation的关系。通过实例展示了算法的应用和DvoretzkysTheorem对其收敛性的支持。

本篇博客内容源于课程《强化学习的数学原理》赵世钰老师西湖大学，旨在记录学习强化学习的过程。

强化学习06——随即近似和随机梯度下降

Robbins-Monro algorithm
- Robbins-Monro 算法收敛性的理论支撑
随机梯度下降（Stochastic gradient descent）
- SGD的收敛性分析
参考资料

Stochastic approximation (SA)是指一大类求根和优化问题的随机迭代算法，与许多其他求根算法相比，SA 的强大之处在于它无需知道目标函数的表达式或其导数。Robbins-Monro算法是SA领域的开创工作。

Robbins-Monro algorithm

假定我们想要找到如下等式的根： $g (w) = 0$ 其中 $g:\mathbb{R}\rightarrow\mathbb{R}$ ， $w\in \mathbb{R}$ 是要求解的变量。假如不知道 $g$ 的函数表达式该怎么求解呢？例如 $g$ 是由神经网络表示。
Robbins-Monro 算法可以解决这个问题： $w_{k+1}=w_{k}-a_k\tilde{g}(w_k,\eta_{k}),k=1,2,3...$