需要源码请点赞收藏关注后评论区留下QQ~~~
深度强化学习将深度学习的感知(预测能力)与强化学习的决策能力相结合,利用深度神经网络具有有效识别高维数据的能力,使得强化学习算法在处理高纬度状态空间任务中更加有效
一、DQN算法简介
1:核心思想
深度Q网络算法(DQN)是一种经典的基于值函数的深度强化学习算法,它将卷积神经网络与Q-Learning算法相结合,利用CNN对图像的强大表征能力,将视频帧视为强化学习中的状态输入网络,然后由网络输出离散的动作值函数,Agent再根据动作值函数选择对应的动作
DQN利用CNN输入原始图像数据,能够在不依赖于任意特定问题的情况下,采用相同的算法模型,在广泛的问题中获得较好的学习效果,常用于处理Atari游戏
2:模型架构
深度Q网络模型架构的输入是距离当前时刻最近的连续4帧预处理后的图像,该输入信号经过3哥卷积层和2个全连接层的非线性变换,变换成低维的,抽象的特征表达,并最终在输出层产生每个动作对应的Q值函数
具体架构如下
1:输入层
2:对输入层进行卷积操作
3:对第一隐藏层的输出进行卷积操作
4:对第二隐藏层的输出进行卷积操作
5:第三隐藏层与第四隐藏层的全连接操作
6:第四隐藏层与输出层的全连接操作
3:数据预处理
包括以下几个部分
1:图像处理
2:动态信息预处理
3:游戏得分预处理
4:游戏随机开始的预处理
二、训练算法
DQN之所以能够较好的将深度学习与强化学习相结合,是因为它引入了三个核心技术
1:目标函数
使用卷积神经网络结合全连接作为动作值函数的逼近器,实现端到端的效果,输入为视频画面,输出为有限数量的动作值函数
2:目标网络
设置目标网络来单独处理TD误差 使得目标值相对稳定
3:经验回放机制
有效解决数据间的相关性和非静态问题,使得网络输入的信息满足独立同分布的条件
DQN训练流程图如下
三、DQN算法优缺点
DQN算法的优点在于:算法通用性强,是一种端到端的处理方式,可为监督学习产生大量的样本。其缺点在于:无法应用于连续动作控制,只能处理具有短时记忆的问题,无法处理需长时记忆的问题,且算法不一定收敛,需要仔细调参
四、DQN在Breakout、Asterix游戏中的实战
接下来通过Atari 2600游戏任务中的Breakout,Asterix游戏来验证DQN算法的性能。
在训练过程中 Agent实行贪心策略,开始值为1并与环境进行交互,并将交互的样本经验保存在经验池中,点对于每个Atari游戏,DQN算法训练1000000时间步,每经历10000时间步,Agent将行为网络的参数复杂到目标网络,每经历1000时间步,模型进行一次策略性能评估
可视化如下
训练阶段的实验数据如下
可以看出 有固定目标值的Q网络可以提高训练的稳定性和收敛性
loss变化如下