46、强化学习范式与深度强化学习全解析

强化学习范式与深度强化学习全解析

1. 资格迹机制

1.1 资格迹的定义与作用

资格迹是对事件的简要记录,它标记与事件相关且适合学习变化的参数。当出现时间差分误差时,只需从带有资格标记的事件中寻找误差原因。资格迹是一个向量 $\mathbf{z}_t \in \mathbb{R}^d$,其分量数量与权重向量 $\mathbf{w}_t$ 相同。资格迹是短期记忆,通常短于一个回合的长度,而权重向量是长期记忆,在系统的整个生命周期中积累。资格迹促进学习过程,其唯一作用是影响权重向量,进而决定估计值。资格迹记录的事件指访问某个状态或采取某个动作,它是强化学习中时间信用分配的基本机制,有助于弥合强化学习中事件与训练信息之间的差距。

例如,流行的时间差分算法 $TD(\lambda)$ 使用了资格迹机制,其中 $\lambda$($0 \leq \lambda \leq 1$)是用于资格迹的衰减率参数。几乎所有时间差分算法,包括 SARSA 和 Q - 学习,都可以与 $\lambda$ 结合,得到更有效的强化学习通用方法。

1.2 前向视图

前向视图是指强化学习算法对每个访问状态的所有未来奖励的期望。具体来说,它通过所有未来奖励和状态来决定如何更新,就像一个人站在状态流上,从当前状态向前看。状态更新后,会继续移动到下一个状态。

以时间差分算法 $TD(\lambda)$ 为例,在 $TD(\lambda)$ 中,要考虑的回报称为 $\lambda$ - 回报。首先,$n$ 步回报定义为前 $n$ 个奖励之和加上第 $n$ 步状态估计值,每一项都乘以折扣因子,用参数化函数逼近的一般形式表示为:
$G_{t:t+n

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值