DQN 基础算法 网络结构 DQN与普通的Q-leaning的区别之一在于使用一个DCNN来近似Q(s,a),在论文中的一代目DQN中使用的是三个卷积层+两个全连接层 经验重放 另外一个区别在于利用了经验回放训练强化学习的学习过程,即一个经验池保存了(s,a,R,s′,done)(s,a,R,s',done)(s,a,R,s′,done)这一种五元组,