Deep Q Nework 方法:
训练数据采用随机经验回放。TD回退结合TargetQ网络预测预估出一个目标量,再用Q网络预测的现实值,目标量与现实值差值更新两个网络的参数集合。
DeepQ Network算法的详细解释:
需要明白两个概念,一个是Q网络,一个是targrtQ网络,Q网络是我们预测网络,targrt Q网络可以认为是我们的训练网络,训练的目标是找到目标Q值:,这里目标Q值的定义依据时间差分算法(n-step TD,一般采用单步时差更新,步数越长,参考的奖励值数量也越多,网络的远见能力越强,),认为目标Q值就是策略最佳状态,然后去依据梯度SGD:去更新Q网络的参数,同时在更新Q网络的参数的同时,也要更新target Q网络的参数,这里体现了其off-policy的特性,离线学习的方式不需要实时学

本文介绍了基于神经网络的Deep Q Network (DQN) 方法,重点讲述了DQN算法的训练过程,包括随机经验回放和Target Q网络的概念。通过时间差分算法确定目标Q值,并使用梯度下降策略更新Q网络和Target Q网络的参数。Experience Replay作为DQN的重要组成部分,通过存储和随机采样样本来改善学习效果。
最低0.47元/天 解锁文章
913

被折叠的 条评论
为什么被折叠?



