
强化学习
qiusuoxiaozi
取法乎上
展开
-
The awkward Bellman optimality equation in RL
通过博文2017 Fall CS294 Lecture 6: Actor-critic introduction,一文中插播的Reinforcement Learning: An introduction(Sutton1998)书中的一页截图,对于 Vπ(s)V^\pi(s): the state-value function for policy π\pi. Qπ(s,a)Q^\pi(s,a原创 2018-01-21 14:29:15 · 1258 阅读 · 0 评论 -
2017 Fall CS294 Lecture 4: Policy gradients introduction
看完CS294 Lecture 4,感觉收获好多,满满的都是干货啊。太多精华和亮点了,以至于我些笔记都很有压力,我觉得最好的方法就是对照Lecture 4的PPT一页一页地看并理解。我先前有一篇博客My Roadmap in Reinforcement Learning ,Karpathy从直觉的角度阐述了Poliy Gradient的思想,如果从严格的数学形式来理解证明,可以看CS294的l...原创 2018-03-20 09:40:27 · 580 阅读 · 0 评论 -
A thorough understanding of on-policy and off-policy in Reinforcement learning
一句话区分on-policy and off-policy: 看behaviour policy和current policy是不是同一个就OK了!我这篇文章主要想借着理解on-policy和off-policy的过程来加深对其他RL算法的认识。因为万事万物总是相互联系的,所以在自己探究,琢磨为什么有些算法是on-policy或者off-policy的过程中,对于它们的本质也有了更深的认识。原创 2018-01-24 19:57:31 · 734 阅读 · 0 评论 -
My Roadmap in Reinforcement Learning
一、前言前段时间接受导师的建议,学习了一些强化学习和GANs的内容,第一周先看的强化学习,二三周看的GANs。强化学习(RL)是一个很有趣的领域,一直以来也是我很喜欢的一个AI的分支,被誉为是AI皇冠上的明珠,因为通过RL能很直观地反映出“智能”。第一周看完之后有不少收获,当时想着要写一篇博客记录下来,结果一拖再拖… 时至今日,已经是第四周了,本来给自己定的本周计划是入门object tra原创 2017-08-25 22:34:06 · 725 阅读 · 0 评论 -
MADDPG翻译
论文全称:Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments 项目地址: https://blog.openai.com/learning-to-cooperate-compete-and-communicate/本文是对MADDPG的翻译,huanghe摘要一, 引言二, 相关工作三...原创 2018-01-19 10:49:28 · 30557 阅读 · 21 评论 -
2017 Fall CS294 Lecture 6: Actor-critic introduction
很奇怪,没有看到Lecture 5的视频,不过Lecture 5貌似是回顾NN,也没关系,所以就跳过直接从Lecture 6开始了!我们重现一下actor-critic的诞生过程:上图中,其实PPT中是有动画的,但是上面无法显示出来,实际的推演过程是: Qπ(st,at)=r(st,at)+Est+1∼p(st+1|st,at)[Vπ(st+1)]Qπ(st,at)=r(st,at)...原创 2018-03-20 09:40:59 · 438 阅读 · 0 评论 -
2017 Fall CS294 Lecture 7: Value Function Methods
回忆Aπ(st,at)Aπ(st,at)A^\pi(s_t,a_t)的含义,如果使用下述的π′(at|st)π′(at|st)\pi'(a_t|s_t)来取代at∼π(at|st)at∼π(at|st)a_t\sim \pi(a_t|s_t),那么由于π′π′\pi'是取了max的,那么至少不会比ππ\pi要差。那么算法的流程就如右小角的那个图一样,不断的用π′π′\pi'来更新ππ\pi,然后用...原创 2018-03-20 09:42:46 · 399 阅读 · 0 评论 -
2017 Fall CS294 Lecture 8 Advanced Q-learning algorithms
今天接着上一讲,继续讲value functions相关的内容 先回顾Q-learning。上一讲讲到QϕQϕQ_{\phi}除了tabular的情形之外,用任何function approximator(比如NN),那么算法的收敛性就无法得到保证。但本讲主要讲,怎么在实际中,让算法以较大的概率收敛。两个问题,一个是correlation,另一个是not gradient desce...原创 2018-03-20 09:43:15 · 583 阅读 · 0 评论