
强化学习
文章平均质量分 96
shura_R
绝不祈求或祷告,为了程序员的骄傲与荣耀
展开
-
【强化学习】Policy Gradient算法详解
DeepMind公开课https://sites.google.com/view/deep-rl-bootcamp/lectures David Silver教程 http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html morvanzhou课程https://morvanzhou.github.io/tutorials/...原创 2018-06-20 20:36:57 · 75533 阅读 · 33 评论 -
【强化学习】Sarsa+Sarsa-lambda(Sarsa(λ))算法详解
【强化学习】Sarsa+Sarsa-lambda(Sarsa(λ))算法详解 Sarsa算法的决策部分和Q-learning相同,所以下面的内容依然会基于上片Qlearning的公式推导。由于与Qlearning极大程度相似所以不会花太大的篇幅去说明1、算法思想Sarsa算法的的决策部分与Qlearning相同,都是通过Q表的形式进行决策,在 Q 表中挑选值较大的动作值施加在环境...原创 2018-06-20 15:16:53 · 14164 阅读 · 7 评论 -
【强化学习】Deep Q Network(DQN)算法详解
DQN(Deep Q-Learning)是将深度学习deeplearning与强化学习reinforcementlearning相结合,实现了从感知到动作的端到端的革命性算法。使用DQN玩游戏的话简直6的飞起,其中fladdy bird这个游戏就已经被DQN玩坏了。当我们的Q-table他过于庞大无法建立的话,使用DQN是一种很好的选择1、算法思想DQN与Qleanring类似...原创 2018-06-20 11:45:30 · 114408 阅读 · 14 评论 -
【强化学习】时间差分法(TD)
引用 知乎专栏 天津包子馅儿的知乎1、前言之前的强化学习分类中介绍了几种强化学习方法的分类,今天就说一下其中重要的算法思想时间差分法,TD与蒙特卡罗法主要是在值函数的更新上有所差异,我们可以先看下图 动态规划法: 需要一个完全已知的环境,需要状态之间的转换概率,并且V(S)状态值函数的估计是自举的(bootstrapping),即当前状态值函数的更新依赖于已知的其他状态...原创 2018-06-26 21:17:08 · 32682 阅读 · 6 评论 -
【强化学习】Q-Learning算法详解
QLearning是强化学习算法中值迭代的算法,Q即为Q(s,a)就是在某一时刻的 s 状态下(s∈S),采取 a (a∈A)动作能够获得收益的期望,环境会根据agent的动作反馈相应的回报reward r,所以算法的主要思想就是将State与Action构建成一张Q-table来存储Q值,然后根据Q值来选取动作获得较大的收益。原创 2018-06-19 21:18:18 · 316877 阅读 · 70 评论 -
【强化学习】强化学习介绍
【强化学习】强化学习介绍1.定义强化学习(reinforcement learning),又称再励学习、评价学习,是一种重要的机器学习方法,在智能控制机器人及分析预测等领域有许多应用。但在传统的机器学习分类中没有提到过强化学习,而在连接主义学习中,把学习算法分为三种类型,即非监督学习(unsupervised learning)、监督学习(supervised leaning)和强化学...原创 2018-06-19 19:38:06 · 11900 阅读 · 1 评论 -
【强化学习】DDPG(Deep Deterministic Policy Gradient)算法详解
http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html 引自Reinforcement Learning:An Introduction强化学习名著2018新编版 DPG论文http://www0.cs.ucl.ac.uk/staff/d.silver/web/Applications_files/determinis...原创 2018-06-22 19:00:57 · 76529 阅读 · 8 评论 -
【强化学习】Actor-Critic算法详解
https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/6-1-actor-critic/ http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html【强化学习】Actor-Critic详解之前在强化学习分类中,我们...原创 2018-06-22 15:25:54 · 108030 阅读 · 27 评论 -
【强化学习】强化学习分类
https://github.com/tigerneil/deep-reinforcement-learning-family https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/1-1-B-RL-methods/ ——-主要引用morvan老师的教学视频【强化学习】强...原创 2018-06-21 19:32:14 · 11777 阅读 · 0 评论 -
【强化学习】值迭代与策略迭代
引自Reinforcement Learning:An Introduction强化学习名著2018新编版 在强化学习中我们经常会遇到策略迭代与值迭代,但是很多人都搞不清楚他们两个之间的区别,他们其实都是强化学习中的动态规划方法。 科普:动态规划dynamic programming简称(DP)【强化学习】值迭代与策略迭代在强化学习中,要求一个完全已知的环境模型,所谓完...原创 2018-06-21 16:44:28 · 25093 阅读 · 2 评论 -
【强化学习】PPO(Proximal Policy Optimization)近端策略优化算法
morvan zhou教学视频https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/6-4-DPPO/Hung-yi Lee课程http://speech.ee.ntu.edu.tw/~tlkagk/courses_MLDS18.htmlPPO论文https://arxiv.org/abs...原创 2019-01-11 17:08:29 · 96460 阅读 · 15 评论