
Q-learning
Hua Zhu
自动驾驶从业者,涉及环境感知、规划控制、仿真器、ROS
展开
-
【强化学习】深度强化学习:DQN(深度Q学习)、经验回放、固定Q目标迭代流程。
以下是深度强化学习:深度Q网络DQN的迭代流程、其中增加了经验回放、固定Q目标等处理技巧。流程的关键点是:1、该流程是一个横向展开流程,从左向右是时间轴上的逐步迭代。2、流程中动作值函数的逼近方法使用的是神经网络模型(图中含NET的步骤,具体根据需要设计)。3、除初始化环节,每个迭代循环分为两大步操作,以随机缓存区为分界,上部为采样环节(sample,提供新的数据),下部为学习环节...原创 2019-01-03 10:02:51 · 7709 阅读 · 0 评论 -
【强化学习】强化学习:时间差分学习算法、SARSAmax算法、Q学习算法与神经网络模型结合迭代流程
以下是强化学习-时间差分学习算法、SARSAmax算法、Q学习算法与神经网络模型相结合的迭代流程图(深度Q学习)流程的关键点是:1、流程中动作值函数的逼近方法使用的是神经网络模型(图中含NET的步骤,具体根据需要设计)。2、流程中需要先利用网络完成所有动作空间的动作值估算,然后根据max策略选取一个动作值作为动作估计值,再结合折扣系数、直接奖励估算真值。3、每一次迭代中,都会使用两...原创 2019-01-02 23:09:59 · 688 阅读 · 0 评论