本篇博客内容源于课程《强化学习的数学原理》 赵世钰老师 西湖大学,旨在记录学习强化学习的过程。
强化学习06——随即近似和随机梯度下降
Stochastic approximation (SA)是指一大类求根和优化问题的随机迭代算法,与许多其他求根算法相比,SA 的强大之处在于它无需知道目标函数的表达式或其导数。Robbins-Monro算法是SA领域的开创工作。
Robbins-Monro algorithm
假定我们想要找到如下等式的根: g ( w ) = 0 g(w)=0 g(w)=0其中 g : R → R g:\mathbb{R}\rightarrow\mathbb{R} g:R→R, w ∈ R w\in \mathbb{R} w∈R是要求解的变量。假如不知道 g g g的函数表达式该怎么求解呢?例如 g g g是由神经网络表示。
Robbins-Monro 算法可以解决这个问题: w k + 1 = w k − a k g ~ ( w k , η k ) , k = 1 , 2 , 3... w_{k+1}=w_{k}-a_k\tilde{g}(w_k,\eta_{k}),k=1,2,3... wk+1=wk−akg~(wk,ηk),k=1,2,3...
- w k w_{k} wk是第k次对根的估计
- g ~ ( w k , η k ) = g ( w k ) + η k \tilde{g}(w_k,\eta_{k})=g(w_{k})+\eta_{k}

本文介绍了在强化学习背景下,Robbins-Monro算法用于求解未知函数根的方法,包括随机梯度下降的原理及其收敛性分析,以及与StochasticApproximation的关系。通过实例展示了算法的应用和DvoretzkysTheorem对其收敛性的支持。
最低0.47元/天 解锁文章
2717

被折叠的 条评论
为什么被折叠?



