深度学习7-DQN扩展

原创

已于 2023-01-14 14:24:16 修改 · 1k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #人工智能

于 2022-12-30 11:38:02 首次发布

# 2022.6.1 rl-8

### DQN扩展

▪ N步DQN：如何通过简单展开Bellman方程来提升收敛速度和稳定性，以及为什么它不是最终方案。
▪ Double DQN：如何处理DQN对动作价值评估过高的问题。
▪ 噪声网络：如何通过增加网络权重的噪声来提升探索的效率。
▪ 带优先级的回放缓冲区：为什么对经验进行均匀采样不是训练的最佳方法。
▪ Dueling DQN：如何通过使网络结构更接近正在解决的问题来加速收敛。
▪ Categorical DQN：如何跳脱动作的单个期待价值，使用完整的分布。

**DQN与Qleanring类似都是基于值迭代的算法，但是在普通的Q-learning中，当状态和动作空间是离散且维数不高时可使用Q-Table储存每个状态动作对的Q值，而当状态和动作空间是高维连续时，使用Q-Table不动作空间和状态太大十分困难。**
所以在此处可以把Q-table更新转化为一函数拟合问题，通过拟合一个函数function来代替Q-table产生Q值，使得相近的状态得到相近的输出动作。因此我们可以想到深度神经网络对复杂特征的提取有很好效果，所以可以将DeepLearning与Reinforcement Learning结合。这就成为了DQN

DL与RL结合存在以下问题：

DL是监督学习需要学习训练集，强化学习不需要训练集只通过环境进行返回奖励值reward，同时也存在着噪声和延迟的问题，所以存在很多状态state的reward值都是0也就是样本稀疏
DL每个样本之间互相独立，而RL当前状态的状态值是依赖后面的状态返回值的。
当我们使用非线性网络来表示值函数的时候可能出现不稳定的问题
DQN中的两大利器解决了以上问题

通过Q-Learning使用reward来构造标签
通过experience replay（经验池）的方法来解决相关性及非静态分布问题
使用一个MainNet产生当前Q值，使用另外一个Target产生Target Q

**基础DQN的实现中，有三个模块