【强化学习】资格迹(Eligibility Traces)

本文详细介绍了强化学习中的资格迹和λ-return方法,探讨了如何通过λ-return改进off-line算法,特别关注了TD(λ)算法的在线化、平均化和继续任务特性。着重讲解了λ值的作用、权重更新公式和资格迹向量的构建,以及如何通过迹衰减和Eligibility Trace实现梯度记忆管理。

前言

资格迹是强化学习的基本方法之一,几乎所有用时序差分的算法都可以与资格迹结合起来,从而可以获得一个更加有效且具一般性的方法。

已知强化学习的本质是找最优策略 π ∗ \pi_* π,最优策略 π ∗ \pi_* π等价于最优动作 π ∗ ( s ) \pi_*(s) π(s),最优动作 π ∗ ( s ) \pi_*(s) π(s)可以由最优状态价值 v ∗ ( s ) v_*(s) v(s)(或者最优行动价值 q ∗ ( s , a ) q_*(s,a) q(s,a))决定。在基于Approximation的方法中,求解 v ∗ ( s ) v_*(s) v(s)或者是 q ∗ ( s , a ) q_*(s,a) q(s,a)表示为近似预测函数 v ^ ( s , w ) \hat{v}(s,w) v^(s,w)或者 q ^ ( s , a , w ) \hat{q}(s,a,w) q^(s,a,w)

已知线性近似的状态价值函数可以写作权重向量 w w w和状态向量 x ( s ) x(s) x(s)的内积。
v ^ ( s , w ) = w T x ( s ) = ∑ i = 1 d w i x i ( s ) \hat{v}(s,w)=w^Tx(s)=\displaystyle\sum_{i=1}^dw_ix_i(s) v^(s,w)=wTx(s)=i=1dwixi(s)
根据MC算法的随机梯度下降(stochastic gradient-descent,SGD)方法求解权重 w w w
w t + 1 = w t + α [ G t − v ^ ( S t , w t ) ] ∇ v ^ ( S t , w t ) w_{t+1}=w_t+\alpha[G_t-\hat{v}(S_t,w_t)]\nabla\hat{v}(S_t,w_t) wt+1=wt+α[Gtv^(St,wt)]v^(St,wt)在求 w w w的过程中, α \alpha α G t G_t Gt ∇ v ^ ( S t , w t ) \nabla\hat{v}(S_t,w_t) v^(St,wt)都有自己的优化方法。
· α \alpha α是步长,如果 G t − v ^ ( S t , w t ) G_t-\hat{v}(S_t,w_t) Gtv^(St,wt)太大,则其 α \alpha α要变小。
· G t G_t Gt的计算可以通过 λ \lambda λ-return方法。
· v ^ ( S t , w t ) \hat{v}(S_t,w_t) v^(

资格Eligibility Traces)是一种在强化学习中用于更新价值函数的方法。它的作用是帮助算法更好地处理延迟奖励和长期依赖关系。 在强化学习中,智能体通过与环境的交互来学习最优策略。资格可以被看作是一种记忆机制,用于跟踪智能体在过去的行为中对未来奖励的贡献。它可以帮助算法更好地估计每个状态的价值,并且能够处理非马尔可夫决策过程。 具体来说,资格通过在每个时间步上对状态-动作对进行更新,将之前的行为轨进行累积。这样做的目的是将过去的行为对当前状态的影响进行加权,使得智能体能够更好地学习到长期的奖励信号。 资格的作用主要有以下几个方面: 1. 处理延迟奖励:由于强化学习中的奖励通常是延迟的,即智能体在某个时间步上采取的行动可能会对未来多个时间步上的奖励产生影响。资格可以帮助算法将过去的行为与未来的奖励进行关联,从而更好地估计每个状态的价值。 2. 处理长期依赖关系:在强化学习中,智能体的决策可能会受到之前多个时间步上的状态和动作的影响。资格可以帮助算法将这种长期依赖关系进行建模,使得智能体能够更好地学习到策略的长期效果。 3. 提高学习效率:通过使用资格,算法可以更快地收敛到最优策略。它可以帮助算法更好地利用之前的经验,减少对样本的依赖,从而提高学习效率。
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值