强化学习
文章平均质量分 91
taoyafan
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
强化学习总结
0 废话这篇博客本是我之前自己总结,联系博士生导师时表明自己对强化学习的了解程度的。奈何导师不理我,但是我觉得我总结的还可以,想和广大朋友分享。由于把很多内容揉在了一起,都是按照自己的理解写出来的,而且当时时间比较紧,所以没写参考文献。文中主要写了我很多直观的理解,公式或推导可能不是特别严谨,另外还有很多算法没有写进来。由于我的理解可能会不全面或出现偏差,文中描述不到位或者是错误的地方还请指出...原创 2019-10-18 09:10:38 · 768 阅读 · 0 评论 -
RL论文阅读【七】Deterministic Policy Gradient Algorithms
1废话终于看到 PG 了,后边还要看 DDPG,TRPO,PPO,SAC,NAF,TD3,A3C等等,任重而道远啊。看完 model free 还想着重看看 model based,好多啊,不知道什么时候能接近前沿,努力吧,为了爱而奋斗。另外,越写越懒了,只做自己复习用,很多都省了,新手还是别看了,看不懂的。这篇论文可以算是现在很多 PG 的鼻祖了,证明了 Deterministic PG...原创 2019-06-30 23:54:20 · 1279 阅读 · 0 评论 -
RL论文阅读【六】Rainbow: Combining Improvements in Deep Reinforcement Learning
1 motivation这篇论文可以理解为把 DQN 的很多改进都用上了,之前 Dueling DQN 其实已经把 Double DQN 和 Prioritized replay 已经用上了,除此之外,Q-learning 还有一个改进是 Multi-step,后来又有人提出了 Distributional RL 和 Noisy net。然后这篇论文的思想就是把这些改进全结合到一起,做一个全能...原创 2019-06-23 22:54:59 · 4089 阅读 · 1 评论 -
RL论文阅读【五】Prioritized Experience Replay
1 废话·前一段一个很重要的面试挂了,难受了几天,又是谢师宴,还有昨天还打了一个晚上的电话,总之托了好几天。。。prioritized replay 早就知道,也知道大概的意思,就是之前 loss 大的优先级设置大些,但是仔细看了论文,思想的确就是这样,但是实际的算法还是有很多细节要考虑的,下边就仔细说说。注意:我把 transition 翻译成了“转换”,有时候也说成了“样本”。...原创 2019-06-13 23:52:12 · 1765 阅读 · 0 评论 -
RL论文阅读【三】Dueling Network Architectures for Deep Reinforcement Learning
1 废话这篇论文就是介绍我们常说的 Dueling DQN,在我心中一直以为和 Double DQN 是平行的两种技术,所以也没怎么想就看这篇论文了,但是看了才发现,原来这篇论文中提到了 Double DQN,而且可以应用于 Double DQN,而且同时还用到的 Prioritized replay,所以正确的阅读顺序应该是先看 Double DQN 和Prioritized experi...原创 2019-06-03 00:27:20 · 3137 阅读 · 0 评论 -
RL论文阅读【二】Human-level control through deep reinforcement learning
1废话这篇论文和上一篇其实都差不多,都是DQN,都是 DeepMind 的,作者也都一样,不过还是有一些改进的,下面就直说改进了,不说背景了。2 算法改进有两个比较大的改进:(1)加了一个 target Q,每个 C step 将当前的 Q 网络的参数赋值给 target Q。作用是在训练过程中,固定目标值,也就是,防止divergence 或oscillations的发生。...原创 2019-05-29 23:52:32 · 745 阅读 · 0 评论 -
RL论文阅读【四】Deep Reinforcement Learning with Double Q-learning(Double DQN)
1 废话今天特地早回来了点,天天一点睡,熬不住啊。把 Double DQN 看完了,收获还是不小的吧,虽然公式早就知道,不过把为什么DQN会高估和怎么解决的思路介绍的比较清楚了。2 Motivation其实吧,DQN 存在的高估问题和 Q-learning 是一样的,所以 Q-learning 是如何解决的呢?答案就是 Double Q-learning,所以我们今天的 Double ...原创 2019-06-06 00:14:30 · 2766 阅读 · 0 评论 -
强化学习关键论文
我就不再复制了,直接移步参考链接吧,这个博客的目的只是为了方便大家搜索。参考 OpenAI 的 Spinning UP 中的Key Papers in Deep RL原创 2019-05-27 23:24:33 · 551 阅读 · 0 评论 -
RL论文阅读【一】Playing Atari with Deep Reinforcement Learning
1 废话开始要认真的读论文的,计划每天晚上回宿舍看一半,两天看完一篇,第三天写博客总结,虽然有点慢吧,但是积少成多嘛~今天先介绍第一篇,也是深度强化学习的开山之作。2 动机一般把这篇论文称作深度强化学习的第一篇论文,该论文发表与2013年,受到2012年Hitton和学生Alex在image net获得冠军的影响,第一次将深度学习和强化学习结合,其实就是用了CNN做观测的处理。...原创 2019-05-26 23:06:30 · 1714 阅读 · 1 评论 -
深度剖析 OpenAI Gym(持续更新)
1 废话最近用到 OpenAI Gym,相关的介绍比较少,为了用着方便点,翻了翻底层,下边记录下我的理解,包括两部分,一个是gym 的结构和说明,还有一个是在执行我们程序时,底层程序的执行顺序。注意:我只介绍我知道的部分,随着理解的深入介绍的会更多,个人理解可能有误,若有问题请评论,谢谢。OpenAI 的官网为:https://gym.openai.com/github为:http...原创 2019-05-20 14:48:26 · 11336 阅读 · 1 评论 -
ubuntu16.04 安装 gym、mujoco、mujoco-py
废话:好久没更新博客了,这几个月找实习,投了20多家一个都没过,还是太菜了,专心搞毕设吧。。下边记录安装 gym、mujoco。1 Mujoco首先 Mujoco 部分参考博客:强化学习环境配置(Ubuntu16.04)—gym、mujoco、mujoco-py、baselines安装与测试几个需要补充的地方:(1)关于 Mujoco 的 License,试用的可以...原创 2019-05-20 08:55:37 · 2233 阅读 · 0 评论 -
总结 of 字节跳动的比赛(Bute Cup2018)——新闻标题生成
目录0、废话1、我们的模型介绍0. 数据预处理1. Seq2Seq + Attention2. + pointer network + coverage3. + temporary attention + policy gradient4. + dropout2、出现的问题1. 分数据集2. 模型保存3. 测试时控制变量3、别人很多值得学习的部分...原创 2018-12-07 19:19:44 · 4692 阅读 · 10 评论 -
David silver 强化学习公开课笔记(四):Model-Free Prediction
0 废话好多天没写博客,不过也没闲着,把李宏毅老师的课看完了,但是就是不想总结,总觉得太费时间,回宿舍了看看他的机器学习,算是再补补基础吧,发现有一些内容还是之前没学过的,反正老师讲的有趣,看着挺好玩的。伯克利的强化学习看了两集,因为作业要申请mujoco,又发现了一个github上的一个好项目,链接为:https://github.com/dennybritz/reinforcemen...原创 2018-08-28 22:12:27 · 972 阅读 · 0 评论 -
David silver 强化学习公开课笔记(三):Planning by Dynamic Programming
1 引言动态规划一开始我不是很理解,先看PPT上的解释:即是一个方法,把一个复杂的问题分解成子问题,通过综合子问题的解来解决问题。我看了一个文章,说的不错,也感觉理解的差不多了,链接:https://www.sohu.com/a/153858619_466939。动态规划问题满足两个性质:(1)最优子结构(Optimal substructure)(2)重叠子问题(Over...原创 2018-08-13 22:10:27 · 930 阅读 · 0 评论 -
David silver 强化学习公开课笔记(二):MP、MRP、MDP
1 引言1.1 Markov 的性质正如上一节课提到的,Markov 状态表示当前的状态包括了历史所有的信息,也就是给定当前状态,未来和历史是独立的。通俗的说就是未来只和现在有关,和过去是没有关系的!其实也不能说和过去是没有关系,而是现在状态包括了所有的历史。有点绕。。还是看下面的定义式:所有的 RL 的问题都能表示为一个 MDP。关于什么是 MDP,下面再说。1.2 状态转移...原创 2018-08-13 11:30:33 · 3398 阅读 · 0 评论 -
David silver 强化学习公开课笔记(一):介绍
1 废话一星期前上完了 Davild silver 的强化学习的公开课,记了些笔记,为了再巩固一下,写几篇博客总结一下,毕竟能讲清楚和能听懂还是有很大差距的。先介绍一下 David silver 吧,Alpha go 的项目负责人, 也是 nature 上 alpha go 那篇论文的一作加通讯作者,在强化学习领域,Deep mind 和 Open AI 可以说独领风骚吧,所以 David s...原创 2018-07-31 00:05:47 · 2877 阅读 · 0 评论
分享