前言
资格迹是强化学习的基本方法之一,几乎所有用时序差分的算法都可以与资格迹结合起来,从而可以获得一个更加有效且具一般性的方法。
已知强化学习的本质是找最优策略 π ∗ \pi_* π∗,最优策略 π ∗ \pi_* π∗等价于最优动作 π ∗ ( s ) \pi_*(s) π∗(s),最优动作 π ∗ ( s ) \pi_*(s) π∗(s)可以由最优状态价值 v ∗ ( s ) v_*(s) v∗(s)(或者最优行动价值 q ∗ ( s , a ) q_*(s,a) q∗(s,a))决定。在基于Approximation的方法中,求解 v ∗ ( s ) v_*(s) v∗(s)或者是 q ∗ ( s , a ) q_*(s,a) q∗(s,a)表示为近似预测函数 v ^ ( s , w ) \hat{v}(s,w) v^(s,w)或者 q ^ ( s , a , w ) \hat{q}(s,a,w) q^(s,a,w)。
已知线性近似的状态价值函数可以写作权重向量 w w w和状态向量 x ( s ) x(s) x(s)的内积。
v ^ ( s , w ) = w T x ( s ) = ∑ i = 1 d w i x i ( s ) \hat{v}(s,w)=w^Tx(s)=\displaystyle\sum_{i=1}^dw_ix_i(s) v^(s,w)=wTx(s)=i=1∑dwixi(s)
根据MC算法的随机梯度下降(stochastic gradient-descent,SGD)方法求解权重 w w w
w t + 1 = w t + α [ G t − v ^ ( S t , w t ) ] ∇ v ^ ( S t , w t ) w_{t+1}=w_t+\alpha[G_t-\hat{v}(S_t,w_t)]\nabla\hat{v}(S_t,w_t) wt+1=wt+α[Gt−v^(St,wt)]∇v^(St,wt)在求 w w w的过程中, α \alpha α, G t G_t Gt, ∇ v ^ ( S t , w t ) \nabla\hat{v}(S_t,w_t) ∇v^(St,wt)都有自己的优化方法。
· α \alpha α是步长,如果 G t − v ^ ( S t , w t ) G_t-\hat{v}(S_t,w_t) Gt−v^(St,wt)太大,则其 α \alpha α要变小。
· G t G_t Gt的计算可以通过 λ \lambda λ-return方法。
· v ^ ( S t , w t ) \hat{v}(S_t,w_t) v^(

本文详细介绍了强化学习中的资格迹和λ-return方法,探讨了如何通过λ-return改进off-line算法,特别关注了TD(λ)算法的在线化、平均化和继续任务特性。着重讲解了λ值的作用、权重更新公式和资格迹向量的构建,以及如何通过迹衰减和Eligibility Trace实现梯度记忆管理。
最低0.47元/天 解锁文章
52

被折叠的 条评论
为什么被折叠?



