# 2022.6.1 rl-8
### DQN扩展
▪ N步DQN:如何通过简单展开Bellman方程来提升收敛速度和稳定性,以及为什么它不是最终方案。
▪ Double DQN:如何处理DQN对动作价值评估过高的问题。
▪ 噪声网络:如何通过增加网络权重的噪声来提升探索的效率。
▪ 带优先级的回放缓冲区:为什么对经验进行均匀采样不是训练的最佳方法。
▪ Dueling DQN:如何通过使网络结构更接近正在解决的问题来加速收敛。
▪ Categorical DQN:如何跳脱动作的单个期待价值,使用完整的分布。
**DQN与Qleanring类似都是基于值迭代的算法,但是在普通的Q-learning中,当状态和动作空间是离散且维数不高时可使用Q-Table储存每个状态动作对的Q值,而当状态和动作空间是高维连续时,使用Q-Table不动作空间和状态太大十分困难。**
所以在此处可以把Q-table更新转化为一函数拟合问题,通过拟合一个函数function来代替Q-table产生Q值,使得相近的状态得到相近的输出动作。因此我们可以想到深度神经网络对复杂特征的提取有很好效果,所以可以将DeepLearning与Reinforcement Learning结合。这就成为了DQN
DL与RL结合存在以下问题 :
DL是监督学习需要学习训练集,强化学习不需要训练集只通过环境进行返回奖励值reward,同时也存在着噪声和延迟的问题,所以存在很多状态state的reward值都是0也就是样本稀疏
DL每个样本之间互相独立,而RL当前状态的状态值是依赖后面的状态返回值的。
当我们使用非线性网络来表示值函数的时候可能出现不稳定的问题
DQN中的两大利器解决了以上问题
通过Q-Learning使用