深度Q网络(DQN)及其改进方法
1. 目标Q网络(Target Q-Network)
为了减少网络的相互依赖,引入了目标Q网络。损失函数中有两个Q函数实例,一个来自预测网络,另一个来自目标Q网络。目标Q网络是预测网络的副本,但参数更新有延迟,每隔几个批次才将其更新为与预测网络相同。这样能为Q值提供稳定性,有助于学习到更好的Q函数。
2. 经验回放(Experience Replay)
学习过程中的不稳定性来源之一是近期经验的高度相关性。如果使用近期经验的批次训练DQN,这些动作 - 状态对会相互关联,导致批次梯度不能准确代表整体梯度。
经验回放的做法是将智能体的所有经验存储在一个表中,构建批次时从这些经验中随机采样。经验以 $(s_i, a_i, r_i, s_{i+1})$ 元组的形式存储,基于这些值可以计算损失函数和梯度来优化网络。这个经验回放表更像一个队列,会移除早期训练中不具代表性的旧经验。
3. 从Q函数到策略(From Q-Function to Policy)
Q学习是一种值学习范式,而非策略学习算法。但可以根据学习到的Q函数构建策略。如果Q函数是最优的,那么从中导出的策略也将是最优的。最优策略可以表示为:
$\pi(s; \theta) = \arg \max_{a’} Q^*(s, a’; \theta)$
也可以使用采样技术创建随机策略,使智能体偶尔偏离Q函数的建议,增加探索程度。
4. DQN与马尔可夫假设(DQN and the Markov Assumption)
DQN是基于马尔可夫假设的马尔可夫决策过程,该假设认为下一个状态 $
DQN及其改进方法综述
超级会员免费看
订阅专栏 解锁全文
19

被折叠的 条评论
为什么被折叠?



