
(深度)增强学习
文章平均质量分 83
mmc2015
北大信科学院,关注深度强化学习。http://net.pku.edu.cn/~maohangyu/
展开
-
MuJoCo及mujoco_py安装(以及troubleshooting)
MuJoCo及mujoco_py安装(以及troubleshooting)原创 2022-10-05 13:44:32 · 2738 阅读 · 2 评论 -
很认真的中了两篇AAAI2020的文章:NCC-MARL: Neighborhood Cognition Consistent Multi-Agent Reinforcement Learning.
第一篇:NCC-MARL: Neighborhood Cognition Consistent Multi-Agent Reinforcement Learning.NCC-MARL is a general RL framework to handlelarge-scalemulti-agent cooperative problems. We notice that agents ...原创 2019-11-16 19:30:48 · 2895 阅读 · 5 评论 -
《reinforcement learning:an introduction》第五章《Monte Carlo Methods》总结
由于组里新同学进来,需要带着他入门RL,选择从silver的课程开始。对于我自己,增加一个仔细阅读《reinforcement learning:an introduction》的要求。因为之前读的不太认真,这一次希望可以认真一点,将对应的知识点也做一个简单总结。注意:本章考虑model-free的prediction和control,仍然有两种方法,policy原创 2017-07-25 19:36:19 · 2386 阅读 · 0 评论 -
《reinforcement learning:an introduction》第六章《Temporal-Difference Learning》总结
由于组里新同学进来,需要带着他入门RL,选择从silver的课程开始。对于我自己,增加一个仔细阅读《reinforcement learning:an introduction》的要求。因为之前读的不太认真,这一次希望可以认真一点,将对应的知识点也做一个简单总结。注意:本章考虑model-free的prediction和control,仍然有两种方法,pol原创 2017-07-25 20:41:12 · 1809 阅读 · 2 评论 -
《reinforcement learning:an introduction》第八章《Planning and Learning with Tabular Methods》总结
由于组里新同学进来,需要带着他入门RL,选择从silver的课程开始。对于我自己,增加一个仔细阅读《reinforcement learning:an introduction》的要求。因为之前读的不太认真,这一次希望可以认真一点,将对应的知识点也做一个简单总结。8.1 Models and PlanningBy a model of the原创 2017-08-03 11:03:27 · 1711 阅读 · 0 评论 -
《reinforcement learning:an introduction》第九章《On-policy Prediction with Approximation》总结
由于组里新同学进来,需要带着他入门RL,选择从silver的课程开始。对于我自己,增加一个仔细阅读《reinforcement learning:an introduction》的要求。因为之前读的不太认真,这一次希望可以认真一点,将对应的知识点也做一个简单总结。9.1 Value-function Approximation . . . . . . .原创 2017-08-07 14:33:56 · 1448 阅读 · 0 评论 -
《reinforcement learning:an introduction》第十一章《Off-policy Methods with Approximation》总结
由于组里新同学进来,需要带着他入门RL,选择从silver的课程开始。对于我自己,增加一个仔细阅读《reinforcement learning:an introduction》的要求。因为之前读的不太认真,这一次希望可以认真一点,将对应的知识点也做一个简单总结。The tabular off-policy methods developed in Chap原创 2017-08-08 19:14:51 · 791 阅读 · 0 评论 -
《reinforcement learning:an introduction》第十章《On-policy Control with Approximation》总结
由于组里新同学进来,需要带着他入门RL,选择从silver的课程开始。对于我自己,增加一个仔细阅读《reinforcement learning:an introduction》的要求。因为之前读的不太认真,这一次希望可以认真一点,将对应的知识点也做一个简单总结。The present chapter features the semi-gradient Sar原创 2017-08-08 18:53:23 · 972 阅读 · 0 评论 -
《reinforcement learning:an introduction》第四章《Dynamic Programming》总结
由于组里新同学进来,需要带着他入门RL,选择从silver的课程开始。对于我自己,增加一个仔细阅读《reinforcement learning:an introduction》的要求。因为之前读的不太认真,这一次希望可以认真一点,将对应的知识点也做一个简单总结。Lecture 3,Planning by Dynamic Programming原创 2017-07-18 09:53:47 · 1670 阅读 · 0 评论 -
《reinforcement learning:an introduction》第七章《Multi-step Bootstrapping》总结
由于组里新同学进来,需要带着他入门RL,选择从silver的课程开始。对于我自己,增加一个仔细阅读《reinforcement learning:an introduction》的要求。因为之前读的不太认真,这一次希望可以认真一点,将对应的知识点也做一个简单总结。7.1 n-step TD PredictionThe methods that use n原创 2017-08-02 19:30:26 · 2062 阅读 · 4 评论 -
【避免AI错把黑人识别为大猩猩】伯克利大学提出协同反向强化学习【论rewards设计的重要性】
因为之后打算写一篇rewards设计的文章,所以看到这个文章觉得是个有力的出发点。另外,文章本身也很不错。https://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&mid=2652002837&idx=5&sn=c966fdaab2dc651f644118af9686f712&chksm=f1212ee4c656a7f2f5509ab2b0转载 2017-08-21 20:20:21 · 1422 阅读 · 0 评论 -
《reinforcement learning:an introduction》第十三章《Policy Gradient Methods》总结
由于组里新同学进来,需要带着他入门RL,选择从silver的课程开始。对于我自己,增加一个仔细阅读《reinforcement learning:an introduction》的要求。因为之前读的不太认真,这一次希望可以认真一点,将对应的知识点也做一个简单总结。13.1 Policy Approximation and its Advantages . . . . . . . .原创 2017-08-15 09:57:11 · 1556 阅读 · 0 评论 -
MARL(multi-agent reinforcement learning)的一些边缘文章(imitation、transfer、security等)
参考:https://github.com/LantaoYu/MARL-Papers7.4.2、Inverse MARL[1] Cooperative inverse reinforcement learning by Hadfield-Menell D,Russell S J, Abbeel P, et al. NIPS, 2016.[2] Comparison of Mul原创 2017-11-07 20:40:22 · 5903 阅读 · 0 评论 -
如果环境存在random,那么问题还能建模成MDP吗?
李宏毅老师的课程:https://www.youtube.com/watch?v=W8XF3ME8G2I老师说,对于同一个observation/state(atari game的画面),也不一定会采取相同的动作,因为有些actor是stochastic的,选action有一定随机性,这一点好理解。。。老师还说,即便actor采取同一个action,得到的reward和next state也不一定...原创 2018-03-16 08:16:32 · 598 阅读 · 0 评论 -
如何解释policy gradient中的baseline具有降低variance的作用
在增强学习中有一大类方法叫policy gradient,最典型的是REINFORCE。在这类方法中,目标函数J(w)(通常是the expectation of long term reward)对policy参数w的gradient为:▽J(w) == E[ ▽logπ(a|s) * return ]== E[ ▽logπ(a|s) * (return-baseline)]~=计算N个samp...原创 2018-04-09 23:24:22 · 3744 阅读 · 0 评论 -
The gossip problem【多智能体通信达成全局一致性需要的最少通信次数】
https://www.sciencedirect.com/science/article/pii/0012365X73901210https://arxiv.org/abs/1511.00867原创 2018-04-11 13:31:42 · 874 阅读 · 0 评论 -
Cross-Entropy Method (CEM, 交叉熵方法) 与强化学习
转自:https://the0demiurge.blogspot.com/2017/08/cross-entropy-method-cem.html 前言之前阅读Deep Reinforcement Learning: Pong from Pixels的时候,作者在文中最后提到“One should always try a BB gun before reaching for the...转载 2018-08-17 21:25:24 · 11022 阅读 · 0 评论 -
很认真的中了一篇AAMAS2019的文章:Modelling the Dynamic Joint Policy of Teammates with Attention Multi-agent DDPG
【有中相同会议的小伙伴记得联系我哦,可以一起商量着把会议相关的事情做好】这篇文章是利用深度强化学习(Deep Reinforcement Learning)做多智能体合作(multi-agent cooperation)。主要贡献点在于使用了一个attention机制 in a principled way,principle在,这个attention是基于agent modelling方...原创 2019-01-23 15:46:03 · 5078 阅读 · 3 评论 -
《reinforcement learning:an introduction》第三章《Finite Markov Decision Processes》总结
由于组里新同学进来,需要带着他入门RL,选择从silver的课程开始。对于我自己,增加一个仔细阅读《reinforcement learning:an introduction》的要求。因为之前读的不太认真,这一次希望可以认真一点,将对应的知识点也做一个简单总结。应用RL解决实际问题,目前已有的算法总的来说还是可以的,主要是要设计好能够反映问题本质的state/rewa原创 2017-07-12 16:20:25 · 1528 阅读 · 4 评论 -
《reinforcement learning:an introduction》第二章《Multi-arm Bandits》总结
由于组里新同学进来,需要带着他入门RL,选择从silver的课程开始。对于我自己,增加一个仔细阅读《reinforcement learning:an introduction》的要求。因为之前读的不太认真,这一次希望可以认真一点,将对应的知识点也做一个简单总结。K-armed bandit problem: Consider the followin原创 2017-07-10 22:47:31 · 1550 阅读 · 0 评论 -
《reinforcement learning:an introduction》第一章《The Reinforcement Learning Problem》总结
由于组里新同学进来,需要带着他入门RL,选择从silver的课程开始。对于我自己,增加一个仔细阅读《reinforcement learning:an introduction》的要求。因为之前读的不太认真,这一次希望可以认真一点,将对应的知识点也做一个简单总结。Reinforcement learning problems involve learning what原创 2017-07-10 17:27:35 · 3072 阅读 · 0 评论 -
多臂赌博机,multi-armed bandit problem(1):
感觉多臂赌博机方面的中文文献很少,偶尔碰到,记录一下,方便其它人学习。感谢原作者:http://mlyixi.byethost32.com/blog/?tag=%E5%A4%9A%E8%87%82%E8%B5%8C%E5%8D%9A%E6%9C%BA假想一个风投他想着他的收益最大化,这时他总会面临一个两难: 何时去投资那些已经成功的公司,何时去投资那些还没有成功但具有很大潜力的转载 2016-04-26 09:11:11 · 23035 阅读 · 4 评论 -
reinforcement learning,增强学习:Exploration and Exploitation
最后两节课分别将bandits和games,基本上是保证课程的完整性,很多内容比较复杂,这里只提一些思想。Lecture 9: Exploration and ExploitationOnline decision-making involves a fundamental choice:ExploitationMake the best decision gi原创 2016-12-05 17:12:06 · 2302 阅读 · 0 评论 -
reinforcement learning,增强学习:Integrating Learning and Planning
好长时间没跟新了,这期间有好多事情(华为、微博、算法课),现在把最后几节课拾起来。上节课内容和本节课内容1)Model-Free和Model-Based的区别:Model-Free RL:No modelLearn value function (and/or policy) from experienceModel-Based RL原创 2016-12-04 09:58:52 · 2410 阅读 · 0 评论 -
reinforcement learning,增强学习:Model-Free Prediction
首先回忆上一次的内容:对于给定的MDP,使用Policy Evaluation进行prediction(对于给定的policy π,evaluate该policy π能够达到的Vπ(s))使用Policy Iteration、Value Iteration进行control(没有特定的policy π,希望找到针对该MDP最优的policy π*,同时给出π*在每个状态的最原创 2016-10-20 13:54:28 · 3263 阅读 · 0 评论 -
reinforcement learning,增强学习:Policy Evaluation,Policy Iteration,Value Iteration,Dynamic Programming f
首先回忆上一次的内容:Bellman Expectation Equation:【计算时常用】【计算时常用】【计算时常用】Bellman Optimality Equation:为什么DP能够解决MDP问题:Policy Evaluation:1)要解原创 2016-10-19 16:44:02 · 7590 阅读 · 2 评论 -
reinforcement learning,增强学习:Markov Decision Processes
所有内容来自:http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html传统的RL的研究对象就是MDP。直接假设就是【环境是完全可观察(当前状态唯一决定了整个过程的特性)】。Optimal control primarily deals with continuous MDPsPartially observabl原创 2016-10-18 21:03:48 · 2510 阅读 · 2 评论 -
reinforcement learning,增强学习:Policy Gradient
上节课和本节课内容具体的: Finite Difference Policy Gradient Monte-Carlo Policy GradientActor-Critic Policy Gradient区别和联系: Advantages of Policy-Based RL:Better convergence propertiesEffective原创 2016-10-25 10:47:54 · 6816 阅读 · 0 评论 -
reinforcement learning,增强学习:Value Function Approximation
上次内容:Model-Free Control。所谓model-free,是指没有给定MDP(即MDP未知,甚至不知道是不是MDP过程)。希望在未给出MDP的情况下,进行Control(理想情况是policy也没有给出,Optimise the value function of an unknown MDP)。Model-Free Control有两大方法:on-policy L原创 2016-10-24 09:49:35 · 5505 阅读 · 1 评论 -
多臂赌博机,multi-armed bandit problem(2):
感觉多臂赌博机方面的中文文献很少,偶尔碰到,记录一下,方便其它人学习。感谢原作者:http://mlyixi.byethost32.com/blog/?cat=35这一节我们来了解下多臂赌博机问题的提出和理论基础,最后讨论下UCB系列策略.当然,这里的多臂赌博机问题是随机式的. 随机式多臂赌博机的问题描述就不在这里重复了,可以参考上一节理论问题的证明转载 2016-04-26 09:13:45 · 7256 阅读 · 0 评论 -
多臂赌博机,multi-armed bandit problem(3):
感觉多臂赌博机方面的中文文献很少,偶尔碰到,记录一下,方便其它人学习。感谢原作者:http://mlyixi.byethost32.com/blog/?cat=35在上两节我们讨论的UCB系列算法面对的情况是静态的,即各臂的分布参数不会改变,于是我们就"乐观地面对不确定性"--根据采样平均值尽快地确定那个最好的臂.但是在现实世界中收益结构是更复杂的,非静态的转载 2016-04-26 09:16:48 · 6862 阅读 · 0 评论 -
深度 | David Silver全面解读深度强化学习:从基础概念到AlphaGo
内容不错,转载保留http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650724740&idx=2&sn=ff1006aa53de7e766c7b15760f196a3d&chksm=871b1dfab06c94ec0b83bfe14c866433397e0006f9e6b3a65b1d76e04333ce99a4db341d525转载 2017-03-31 19:09:07 · 3539 阅读 · 0 评论 -
增强学习中的on-policy和off-policy的区别
首先说下观点:你估计policy或者value-function的时候,需要用到一些样本,这些样本也是需要采用某种策略(可能固定、可能完全随机、也可能隔一段时间调整一次)生成的。那么,判断on-policy和off-policy的关键在于,你所估计的policy或者value-function 和 你生成样本时所采用的policy 是不是一样。如果一样,那就是on-policy的,否则是原创 2017-02-27 14:13:00 · 29158 阅读 · 2 评论 -
深入解读AlphaGo,Nature-2016:Mastering the game of Go with deep neural networks and tree search
主要参考:http://blog.youkuaiyun.com/songrotek/article/details/50610684http://studygolang.com/articles/6466http://www.360doc.com/content/16/0317/09/31057678_542874401.shtmlhttp://blog.youkuaiyun.com/u010转载 2017-02-03 19:21:55 · 2125 阅读 · 0 评论 -
Deep Q-Network,Nature-2015:Human-level control through deep reinforcement learning
感谢原作者的翻译与总结:http://blog.youkuaiyun.com/songrotek/article/details/50917286来源:Nature 2015作者:Deepmind理解基础:深度学习基础增强学习基础创新点:构建一个全新的Agent,基于Deep Q-network,能够直接从高维的原始输入数据中通过End-to-End转载 2017-02-03 15:19:11 · 2898 阅读 · 0 评论 -
Deep Reinforcement Learning 深度增强学习资源
多谢作者的总结:http://blog.youkuaiyun.com/songrotek/article/details/505729351 学习资料增强学习课程 David Silver (有视频和ppt):http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html最好的增强学习教材:转载 2017-02-03 15:11:53 · 1163 阅读 · 0 评论 -
Deep Q-Network,NIPS-2013:Playing Atari with Deep Reinforcement Learning
感谢作者的翻译与总结http://blog.youkuaiyun.com/songrotek/article/details/50581011来源:NIPS 2013作者:DeepMind理解基础:增强学习基本知识深度学习 特别是卷积神经网络的基本知识创新点:第一个将深度学习模型与增强学习结合在一起从而成功地直接从高维的输入学习控制策略具转载 2017-02-03 15:04:29 · 1981 阅读 · 0 评论 -
深度增强学习前沿算法思想【DQN、A3C、UNREAL,简介】
http://mp.weixin.qq.com/s?__biz=MzA4Mzc0NjkwNA==&mid=2650782129&idx=1&sn=935f14d260eb9513f48e4abca05667f7&chksm=87fad086b08d5990a8cf80c97cd02875696857a3cd8d262948d29135d169fd62707c5376051b&mpshare=1&s转载 2017-02-16 20:29:32 · 13432 阅读 · 2 评论 -
增强学习中,exploration和exploitation时常用的action选择方法
http://blog.greenwicher.com/2016/12/24/drl-from_mab_to_mcts/基本算法具体的算法实施请见我的Github 或者 Bandit Algorithms for Website Optimization 这本书,下文只是简要叙述每种算法的思路。如日后有时间,再将各自的代码补上。值得一提的是,该领域主要的理论在于转载 2017-02-05 14:18:07 · 6138 阅读 · 0 评论 -
reinforcement learning,增强学习:Model-Free Control
上次内容:Model-Free Prediction。所谓model-free,是指没有给定MDP(即MDP未知,甚至不知道是不是MDP过程)。希望在未给出MDP的情况下,进行prediction(对于给定的policy π,evaluate该policy π能够达到的Vπ(s))。Model-Free Prediction有两大方法:Monte-Carlo Learning和Temp原创 2016-10-21 22:27:54 · 4665 阅读 · 0 评论