
神经网络
Hua Zhu
自动驾驶从业者,涉及环境感知、规划控制、仿真器、ROS
展开
-
【强化学习】强化学习:时间差分学习算法、SARSAmax算法、Q学习算法与神经网络模型结合迭代流程
以下是强化学习-时间差分学习算法、SARSAmax算法、Q学习算法与神经网络模型相结合的迭代流程图(深度Q学习)流程的关键点是:1、流程中动作值函数的逼近方法使用的是神经网络模型(图中含NET的步骤,具体根据需要设计)。2、流程中需要先利用网络完成所有动作空间的动作值估算,然后根据max策略选取一个动作值作为动作估计值,再结合折扣系数、直接奖励估算真值。3、每一次迭代中,都会使用两...原创 2019-01-02 23:09:59 · 688 阅读 · 0 评论 -
【强化学习】强化学习:时间差分学习算法、SARSA(0)算法与神经网络模型结合迭代流程
以下是强化学习-时间差分学习算法(SARSA(0)算法)与神经网络模型相结合的迭代流程图流程的关键点是:1、流程中动作值函数的逼近方法使用的是神经网络模型(图中含NET的步骤,具体根据需要设计)。2、模型中使用的动作值的真值是用神经网络模型(使用NET步骤)进行估算后乘于折扣率加上当前奖励得到的。3、每一次迭代中,用来训练模型的状态值S、动作值A都是上一步迭代所得(on-line策...原创 2019-01-02 18:17:02 · 648 阅读 · 0 评论 -
【机器学习】机器学习知识图谱:传统学习、神经网络、深度学习、强化学习、对抗学习等
注:以下为个人总结机器学习知识图谱,来源参考《机器学习》西瓜书、《深度学习》Udacity、《机器学习》Coursera等。原创 2019-01-01 15:59:25 · 2319 阅读 · 1 评论