20、深度Q网络(DQN)及其改进方法

DQN及其改进方法综述

深度Q网络(DQN)及其改进方法

1. 目标Q网络(Target Q-Network)

为了减少网络的相互依赖,引入了目标Q网络。损失函数中有两个Q函数实例,一个来自预测网络,另一个来自目标Q网络。目标Q网络是预测网络的副本,但参数更新有延迟,每隔几个批次才将其更新为与预测网络相同。这样能为Q值提供稳定性,有助于学习到更好的Q函数。

2. 经验回放(Experience Replay)

学习过程中的不稳定性来源之一是近期经验的高度相关性。如果使用近期经验的批次训练DQN,这些动作 - 状态对会相互关联,导致批次梯度不能准确代表整体梯度。
经验回放的做法是将智能体的所有经验存储在一个表中,构建批次时从这些经验中随机采样。经验以 $(s_i, a_i, r_i, s_{i+1})$ 元组的形式存储,基于这些值可以计算损失函数和梯度来优化网络。这个经验回放表更像一个队列,会移除早期训练中不具代表性的旧经验。

3. 从Q函数到策略(From Q-Function to Policy)

Q学习是一种值学习范式,而非策略学习算法。但可以根据学习到的Q函数构建策略。如果Q函数是最优的,那么从中导出的策略也将是最优的。最优策略可以表示为:
$\pi(s; \theta) = \arg \max_{a’} Q^*(s, a’; \theta)$
也可以使用采样技术创建随机策略,使智能体偶尔偏离Q函数的建议,增加探索程度。

4. DQN与马尔可夫假设(DQN and the Markov Assumption)

DQN是基于马尔可夫假设的马尔可夫决策过程,该假设认为下一个状态 $

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值