强化学习06——随机近似和随机梯度下降

本文介绍了在强化学习背景下,Robbins-Monro算法用于求解未知函数根的方法,包括随机梯度下降的原理及其收敛性分析,以及与StochasticApproximation的关系。通过实例展示了算法的应用和DvoretzkysTheorem对其收敛性的支持。

本篇博客内容源于课程《强化学习的数学原理》 赵世钰老师 西湖大学,旨在记录学习强化学习的过程。

Stochastic approximation (SA)是指一大类求根和优化问题的随机迭代算法,与许多其他求根算法相比,SA 的强大之处在于它无需知道目标函数的表达式或其导数。Robbins-Monro算法是SA领域的开创工作。

Robbins-Monro algorithm

假定我们想要找到如下等式的根: g ( w ) = 0 g(w)=0 g(w)=0其中 g : R → R g:\mathbb{R}\rightarrow\mathbb{R} g:RR w ∈ R w\in \mathbb{R} wR是要求解的变量。假如不知道 g g g的函数表达式该怎么求解呢?例如 g g g是由神经网络表示。
Robbins-Monro 算法可以解决这个问题: w k + 1 = w k − a k g ~ ( w k , η k ) , k = 1 , 2 , 3... w_{k+1}=w_{k}-a_k\tilde{g}(w_k,\eta_{k}),k=1,2,3... wk+1=wkakg~(wk,ηk),k=1,2,3...

  • w k w_{k} wk是第k次对根的估计
  • g ~ ( w k , η k ) = g ( w k ) + η k \tilde{g}(w_k,\eta_{k})=g(w_{k})+\eta_{k}
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值