【强化学习】强化学习:时间差分学习算法、SARSAmax算法、Q学习算法与神经网络模型结合迭代流程
以下是强化学习-时间差分学习算法、SARSAmax算法、Q学习算法与神经网络模型相结合的迭代流程图(深度Q学习)流程的关键点是:1、流程中动作值函数的逼近方法使用的是神经网络模型(图中含NET的步骤,具体根据需要设计)。2、流程中需要先利用网络完成所有动作空间的动作值估算,然后根据max策略选取一个动作值作为动作估计值,再结合折扣系数、直接奖励估算真值。3、每一次迭代中,都会使用两...
原创
2019-01-02 23:09:59 ·
688 阅读 ·
0 评论