强化学习范式与深度强化学习全解析
1. 资格迹机制
1.1 资格迹的定义与作用
资格迹是对事件的简要记录,它标记与事件相关且适合学习变化的参数。当出现时间差分误差时,只需从带有资格标记的事件中寻找误差原因。资格迹是一个向量 $\mathbf{z}_t \in \mathbb{R}^d$,其分量数量与权重向量 $\mathbf{w}_t$ 相同。资格迹是短期记忆,通常短于一个回合的长度,而权重向量是长期记忆,在系统的整个生命周期中积累。资格迹促进学习过程,其唯一作用是影响权重向量,进而决定估计值。资格迹记录的事件指访问某个状态或采取某个动作,它是强化学习中时间信用分配的基本机制,有助于弥合强化学习中事件与训练信息之间的差距。
例如,流行的时间差分算法 $TD(\lambda)$ 使用了资格迹机制,其中 $\lambda$($0 \leq \lambda \leq 1$)是用于资格迹的衰减率参数。几乎所有时间差分算法,包括 SARSA 和 Q - 学习,都可以与 $\lambda$ 结合,得到更有效的强化学习通用方法。
1.2 前向视图
前向视图是指强化学习算法对每个访问状态的所有未来奖励的期望。具体来说,它通过所有未来奖励和状态来决定如何更新,就像一个人站在状态流上,从当前状态向前看。状态更新后,会继续移动到下一个状态。
以时间差分算法 $TD(\lambda)$ 为例,在 $TD(\lambda)$ 中,要考虑的回报称为 $\lambda$ - 回报。首先,$n$ 步回报定义为前 $n$ 个奖励之和加上第 $n$ 步状态估计值,每一项都乘以折扣因子,用参数化函数逼近的一般形式表示为:
$G_{t:t+n
超级会员免费看
订阅专栏 解锁全文
5万+

被折叠的 条评论
为什么被折叠?



