
Reinforcement Learning
文章平均质量分 94
Webbley
机器学习/深度学习/NLP/
展开
-
强化学习(四):蒙特卡罗学习(MonteCarlo)与时序差分学习(TD learning)
上一节讲的是在已知模型的情况下,如何去解决一个马尔科夫决策过程(MDP)问题。方法就是通过动态规划来评估一个给定的策略,通过不断迭代最终得到最优价值函数。具体的做法有两个:一个是策略迭代,一个是值迭代。从这一节开始,我们将要进入模型未知的情况下,如何去解决一个MDP问题的方法。从本讲开始会用两讲的时间讨论解决一个可以被认为是MDP、但却不掌握MDP具体细节的问题,也就是讲述如何直接从Agent原创 2018-01-20 22:33:00 · 32502 阅读 · 13 评论 -
强化学习(五):Sarsa算法与Q-Learning算法
上一节主要讲了Monte-Carlo learning,TD learning,TD(λ)TD(\lambda)。这三个方法都是为了在给定策略下来估计价值函数V(s)。只不过Monte-Carlo learning需要得到一个完整的episode才能进行一次v值更新,而TD learning则不用,它可以每走一步就更新一次v值。 但是我们的目标是想得到最优策略,所以我们这一讲就是为了通过价值函数原创 2018-01-21 12:11:15 · 27853 阅读 · 8 评论 -
强化学习(三):动态规划求解MDP(Planning by Dynamic Programming)
上一节主要是引入了MDP(Markov decision process)的各种相关的定义与概念。最后得到了最优状态值函数v∗(s)v_*(s)和最优状态动作值函数q∗(s,a)q_*(s,a)的定义与公式。这一节主要是在已知模型的情况下利用动态规划来进行强化学习求解v∗(s)v_*(s)和q∗(s,a)q_*(s,a)。什么叫已知模型的情况?就是说上一节讲到的S,A,P,R,γ>,这些都是已知的原创 2018-01-18 13:57:46 · 24939 阅读 · 13 评论 -
强化学习(二):马尔科夫决策过程(Markov decision process)
本章是强化学习的基础,主要讲的就是马尔科夫决策过程,以后的内容都是以这一节为基础的,所以对本节的相关概念的理解是很重要的。这一节的概念比较多,也是后面章节的基础,一开始笔者也是一头雾水,只有多看几遍,多去思考,才能慢慢理解。毕竟概念与定义比较多,想要一下子消化完还是有一些难度的。这篇博客也是笔者看完David Silver的公开课与其它一些参考资料后的理解,希望对大家有所帮助。Ma原创 2018-01-17 10:03:59 · 99785 阅读 · 46 评论 -
强化学习(一):简介
什么是强化学习上图是一个强化学习的示意图。Agent可以看作是一个机器人,这个机器人在t时刻,通过观测(各种sensors来观测世界)环境得到agent自己所在的状态,接下来agent进行一些运算(思考,决策)之后,做出了一个动作action。这个action就会作用在Environment中,使得agent在environment中转移到一个新的状态state,并且在转移时获得一个即时的原创 2018-01-16 17:16:52 · 14021 阅读 · 5 评论 -
强化学习(七):策略梯度
回顾在上一节中,我们主要是利用函数近似来将Vπ(s)Vπ(s)V^{\pi}(s)与Qπ(s,a)Qπ(s,a)Q^{\pi}(s,a)参数化: 而我们的策略ππ\pi则是从Q值中产生的。比如我们一直使用的ϵ−greedyϵ−greedy\epsilon - greedy探索方法就是根据最大的Q值来选择动作(action)。没有Q值的话就无法使用这个方法了。也就是这个策略的更新是根据Q值...原创 2018-03-07 14:06:53 · 23174 阅读 · 1 评论 -
强化学习(六):价值函数的逼近(近似)
在强化学习(五):Sarsa算法与Q-Learning的学习中,我们都是假设状态是有限的,而且数量也不多,就像例程中都是使用格子世界,每个格子代表一个状态。但是,现在让我们来假设我们在下围棋,每下一个子就是一种状态,那么这些状态就非常多了,如果在程序中要用一个表格来表示状态与状态对应的值函数的话,那么内存就远远不够用了。另外,当状态不是离散的时候,就无法用表格来表示了。所以,我们需要另外的...原创 2018-02-18 14:42:42 · 12577 阅读 · 0 评论