DQN 基础算法 网络结构 DQN与普通的Q-leaning的区别之一在于使用一个DCNN来近似Q(s,a),在论文中的一代目DQN中使用的是三个卷积层+两个全连接层 经验重放 另外一个区别在于利用了经验回放训练强化学习的学习过程,即一个经验池保存了 ( s , a , R , s ′ , d o n e ) (s,a,R,s',done) (s,a,R,s′,do