【强化学习】深度强化学习:DQN(深度Q学习)、经验回放、固定Q目标迭代流程。
以下是深度强化学习:深度Q网络DQN的迭代流程、其中增加了经验回放、固定Q目标等处理技巧。流程的关键点是:1、该流程是一个横向展开流程,从左向右是时间轴上的逐步迭代。2、流程中动作值函数的逼近方法使用的是神经网络模型(图中含NET的步骤,具体根据需要设计)。3、除初始化环节,每个迭代循环分为两大步操作,以随机缓存区为分界,上部为采样环节(sample,提供新的数据),下部为学习环节...
原创
2019-01-03 10:02:51 ·
7709 阅读 ·
0 评论