
强化学习探索
针对强化学习reinforcement learning这一AI技术,由浅入深逐步深入探讨学习
luchi007
这个作者很懒,什么都没留下…
展开
-
Reinforcement Learning强化学习系列之一:model-based learning
前言在机器学习和深度学习坑里呆了有一些时日了,在阿里实习过程中,也感觉到了工业界和学术界的一些迥异,比如强化学习在工业界用的非常广泛,而自己之前没有怎么接触过强化学习的一些知识,所以感觉还是要好好的补一补更新一下自己的知识库,以免被AI时代抛弃。强化学习初识强化学习要素强化学习可以用下面这张图表示: 从上图可以看出,强化学习的要素是: 1. Agent(图中指大脑) 2. Environm原创 2017-09-03 12:08:47 · 16903 阅读 · 7 评论 -
Reinforcement Learning强化学习系列之二:MC prediction
引言这几个月一直在忙找工作和毕业论文的事情,博客搁置了一段时间,现在稍微有点空闲时间,又啃起了强化学习的东西,今天主要介绍的是强化学习的免模型学习free-model learning中的最基础的部分蒙特卡洛方法(Monte Carlo),并以21点游戏作为说明。 本文主要参考的文献是[1]参考的主要代码是这位斯坦福大神的课程代码,本系列的文章均不作为商用,如有侵权请联系我的邮箱Mo...原创 2017-12-23 11:40:38 · 4099 阅读 · 0 评论 -
Reinforcement Learning强化学习系列之三:MC Control
引言前面一篇文章中说到了MC prediction,主要介绍的是如何利用采样轨迹的方法计算Value函数,但是在强化学习中,我们主要想学习的是Q函数,也就是计算出每个state对应的action以及其reward值,在这篇文章中,将会介绍。MC control with epsilon-greedy这一部分将会介绍基于 ϵ−greedyϵ−greedy\epsilon-greedy...原创 2017-12-24 11:40:10 · 2740 阅读 · 0 评论 -
Reinforcement Learning强化学习系列之四:时序差分TD
引言前面一篇讲的是蒙特卡洛的强化学习方法,蒙特卡罗强化学习算法通过考虑采样轨迹,克服了模型未知给策略估计造成的困难,不过蒙特卡罗方法有一个缺点,就是每次需要采样完一个轨迹之后才能更新策略。蒙特卡洛方法没有充分利用学习任务的MDP结构,而时序差分学习方法Temporal Difference(TD)就充分利用了MDP结构,效率比MC要高,这篇文章介绍一下TD算法Sarsa算法Sars...原创 2018-01-02 21:04:47 · 9348 阅读 · 7 评论 -
Reinforcement Learning强化学习系列之五:值近似方法Value Approximation
引言前面说到了强化学习中的蒙特卡洛方法(MC)以及时序差分(TD)的方法,这些方法针对的基本是离散的数据,而一些连续的状态则很难表示,对于这种情况,通常在强化学习里有2中方法,一种是针对value function的方法,也就是本文中提到的值近似(value approximation);另一种则是后面要讲到的policy gradient。值近似的方法 值近似的方法根本上是使用...原创 2018-02-09 23:12:18 · 2368 阅读 · 5 评论