
强化学习基础
转载自博客园刘建平老师的强化学习笔记。
CoreJT
中科院自动化所在读直博生,感兴趣的研究方向:文本分类、情感分析、机器阅读理解与问答系统以及对话系统。
展开
-
强化学习基础 | (19) AlphaGo Zero强化学习原理
原文地址在基于模拟的搜索与蒙特卡罗树搜索(MCTS)中,我们讨论了MCTS的原理和在棋类中的基本应用。这里我们在前一节MCTS的基础上,讨论下DeepMind的AlphaGo Zero强化学习原理。本篇主要参考了AlphaGo Zero的论文, AlphaGo Zero综述和AlphaGo Zero Cheat Sheet。1. AlphaGo Zero模型基础AlphaGo Zero不需要学习人类的棋谱,通过自我对弈完成棋力提高。主要使用了两个模型,第一个就是我们上一节介绍MCTS树结构,另一个是转载 2020-09-10 10:35:51 · 990 阅读 · 0 评论 -
强化学习基础 | (18) 基于模拟的搜索与蒙特卡罗树搜索(MCTS)
原文地址在基于模型的强化学习与Dyna算法框架中,我们讨论基于模型的强化学习方法的基本思路,以及集合基于模型与不基于模型的强化学习框架Dyna。本文我们讨论另一种非常流行的集合基于模型与不基于模型的强化学习方法:基于模拟的搜索(Simulation Based Search)。本篇主要参考了UCL强化学习课程的第八讲,第九讲部分。1. 基于模拟的搜索概述什么是基于模拟的搜索呢?当然主要是两个点:一个是模拟,一个是搜索。模拟我们在上一篇也讨论过,就是基于强化学习模型进行采样,得到样本数据。但是这个数据转载 2020-09-09 11:40:26 · 1182 阅读 · 0 评论 -
强化学习基础 | (17) 基于模型的强化学习与Dyna算法框架
原文地址在前面我们讨论了基于价值的强化学习(Value Based RL)和基于策略的强化学习模型(Policy Based RL),本篇我们讨论最后一种强化学习流派,基于模型的强化学习(Model Based RL),以及基于模型的强化学习算法框架Dyna。本篇主要参考了UCL强化学习课程的第8讲和Dyna-2的论文。1. 基于模型的强化学习简介基于价值的强化学习模型和基于策略的强化学习模型都不是基于模型的,它们从价值函数,策略函数中直接去学习,不用学习环境的状态转化概率模型,即在状态s下采取动作转载 2020-09-09 10:36:16 · 1005 阅读 · 0 评论 -
强化学习基础 | (16) 深度确定性策略梯度(DDPG)
原文地址在A3C中,我们讨论了使用多线程的方法来解决Actor-Critic难收敛的问题,今天我们不使用多线程,而是使用和DDQN类似的方法:即经验回放和双网络的方法来改进Actor-Critic难收敛的问题,这个算法就是深度确定性策略梯度(Deep Deterministic Policy Gradient,以下简称DDPG)。本篇主要参考了DDPG的论文和ICML 2016的deep RL tutorial。1. 从随机策略到确定性策略从DDPG这个名字看,它是由D(Deep)+D(Determ转载 2020-09-08 16:10:42 · 1704 阅读 · 0 评论 -
强化学习基础 | (15) A3C
原文地址在Actor-Critic中,我们讨论了Actor-Critic的算法流程,但是由于普通的Actor-Critic算法难以收敛,需要一些其他的优化。而Asynchronous Advantage Actor-critic(以下简称A3C)就是其中比较好的优化算法。本文我们讨论A3C的算法原理和算法流程。本文主要参考了A3C的论文,以及ICML 2016的deep RL tutorial。1. A3C的引入上一篇Actor-Critic算法的代码,其实很难收敛,无论怎么调参,最后的CartPo转载 2020-09-08 11:53:16 · 550 阅读 · 0 评论 -
强化学习基础 | (14) Actor - Critic
在策略梯度(Policy Gradient)中,我们讲到了基于策略(Policy Based)的强化学习方法的基本思路,并讨论了蒙特卡罗策略梯度reinforce算法。但是由于该算法需要完整的状态序列,同时单独对策略函数进行迭代更新,不太容易收敛。在本篇我们讨论策略(Policy Based)和价值(Value Based)相结合的方法:Actor-Critic算法。本文主要参考了Sutton的强化学习书第13章和UCL强化学习讲义的第7讲。1. Actor-Critic算法简介Actor-Crit转载 2020-09-07 15:25:54 · 1663 阅读 · 0 评论 -
强化学习基础 | (13) 策略梯度(Policy Gradient)
原文地址在前面讲到的DQN系列强化学习算法中,我们主要对价值函数进行了近似表示,基于价值来学习。这种Value Based强化学习方法在很多领域都得到比较好的应用,但是Value Based强化学习方法也有很多局限性,因此在另一些场景下我们需要其他的方法,比如本篇讨论的策略梯度(Policy Gradient),它是Policy Based强化学习方法,基于策略来学习。本文参考了Sutton的强化学习书第13章和策略梯度的论文。文章目录1. Value Based强化学习方法的不足2. Policy转载 2020-08-27 09:47:11 · 2272 阅读 · 0 评论 -
强化学习基础 | (12) Dueling DQN
原文地址作者:刘建平在Prioritized Replay DQN中,我们讨论了对DQN的经验回放池按权重采样来优化DQN算法的方法,本文讨论另一种优化方法,Dueling DQN。本章内容主要参考了ICML 2016的deep RL tutorial和Dueling DQN的论文< Dueling Network Architectures for Deep Reinforcement Learning>(ICML 2016)。文章目录1. Dueling DQN的优化点考虑2. Due转载 2020-08-26 21:22:15 · 674 阅读 · 0 评论 -
强化学习基础 | (11) Prioritized Replay DQN
原文地址作者:刘建平在Double DQN (DDQN)中,我们讲到了DDQN使用两个Q网络,用当前Q网络计算最大Q值对应的动作,用目标Q网络计算这个最大动作对应的目标Q值,进而消除贪婪法带来的偏差(解耦 目标Q值动作选择和目标Q值计算)。今天我们在DDQN的基础上,对经验回放部分的逻辑做优化。对应的算法是Prioritized Replay DQN。本章内容主要参考了ICML 2016的deep RL tutorial和Prioritized Replay DQN的论文< Prioritize转载 2020-08-25 11:54:52 · 1196 阅读 · 0 评论 -
强化学习基础 | (10) Double DQN (DDQN)
在Deep Q-Learning进阶之Nature DQN中,我们讨论了Nature DQN的算法流程,它通过使用两个相同的神经网络,以解决数据样本和网络训练之前的相关性。但是还是有其他值得优化的点,文本就关注于Nature DQN的一个改进版本: Double DQN算法(以下简称DDQN)。本章内容主要参考了ICML 2016的deep RL tutorial和DDQN的论文< Deep Reinforcement Learning with Double Q-learning>。文章目转载 2020-08-25 09:50:57 · 2188 阅读 · 0 评论 -
强化学习基础 | (9) Deep Q-Learning进阶之Nature DQN
在价值函数的近似表示与Deep Q-Learning中,我们讲到了Deep Q-Learning(NIPS 2013)的算法和代码,在这个算法基础上,有很多Deep Q-Learning(以下简称DQN)的改进版,今天我们来讨论DQN的第一个改进版Nature DQN(NIPS 2015)。本章内容主要参考了ICML 2016的deep RL tutorial和Nature DQN的论文。文章目录1. DQN(NIPS 2013)的问题2. Nature DQN的建模3. Nature DQN的算法流程转载 2020-08-24 11:58:41 · 576 阅读 · 0 评论 -
强化学习基础 | (8) 价值函数的近似表示与Deep Q-Learning
原文地址作者:刘建平在强化学习系列的前七篇里,我们主要讨论的都是规模比较小的强化学习问题求解算法。今天开始我们步入深度强化学习。这一篇关注于价值函数的近似表示和Deep Q-Learning算法。Deep Q-Learning这一篇对应Sutton书的第11章部分和UCL强化学习课程的第六讲。文章目录1. 为何需要价值函数的近似表示2. 价值函数的近似表示方法3. Deep Q-Learning算法思路4. Deep Q-Learning实例5. Deep Q-Learning小结1. 为何需要价转载 2020-08-24 10:34:53 · 1013 阅读 · 0 评论 -
强化学习基础 | (7) 时序差分离线控制算法Q-Learning
原文地址作者:刘建平在时序差分在线控制算法SARSA中我们讨论了时序差分的在线控制算法SARSA,而另一类时序差分的离线控制算法还没有讨论,因此本文我们关注于时序差分离线控制算法,主要是经典的Q-Learning算法.Q-Learning这一篇对应Sutton书的第六章部分和UCL强化学习课程的第五讲部分。文章目录1. Q-Learning算法的引入2. Q-Learning算法概述3. Q-Learning算法流程4. Q-Learning算法实例:Windy GridWorld5. SARSA转载 2020-08-23 10:42:31 · 828 阅读 · 0 评论 -
强化学习基础 | (6) 时序差分在线控制算法SARSA
原文地址作者:刘建平在用时序差分法(TD)求解中,我们讨论了用时序差分来求解强化学习预测问题的方法,但是对控制算法的求解过程没有深入,本文我们就对时序差分的在线控制算法SARSA做详细的讨论。SARSA这一篇对应Sutton书的第六章部分和UCL强化学习课程的第五讲部分。文章目录1. SARSA算法的引入2. SARSA算法概述3. SARSA算法流程4. SARSA算法实例:Windy GridWorld5. SARSA(λ\lambdaλ)6. SARSA小结1. SARSA算法的引入SAR转载 2020-08-22 21:52:12 · 791 阅读 · 0 评论 -
强化学习基础 | (5) 用时序差分法(TD)求解
原文地址作者:刘建平在用蒙特卡罗法(MC)求解中,我们讲到了使用蒙特卡罗法来求解强化学习问题的方法,虽然蒙特卡罗法很灵活,不需要环境的状态转化概率模型,但是它需要所有的采样序列都是经历完整的状态序列。如果我们没有完整的状态序列,那么就无法使用蒙特卡罗法求解了。本文我们就来讨论可以不使用完整状态序列求解强化学习问题的方法:时序差分(Temporal-Difference, TD)。时序差分这一篇对应Sutton书的第六章部分和UCL强化学习课程的第四讲部分,第五讲部分。文章目录1. 时序差分TD简介2转载 2020-08-21 17:04:06 · 1147 阅读 · 0 评论 -
强化学习基础 | (4) 用蒙特卡罗法(MC)求解
原文地址作者:刘建平在用动态规划(DP)求解中,我们讨论了用动态规划来求解强化学习预测问题和控制问题的方法。但是由于动态规划法需要在每一次回溯更新某一个状态的价值时,回溯到该状态的所有可能的后续状态。导致对于复杂问题计算量很大。同时很多时候,我们连环境的状态转化模型P都无法知道,这时动态规划法根本没法使用。这时候我们如何求解强化学习问题呢?本文要讨论的蒙特卡罗(Monte-Calo, MC)就是一种可行的方法。蒙特卡罗法这一篇对应Sutton书的第五章和UCL强化学习课程的第四讲部分,第五讲部分。文转载 2020-08-21 10:30:45 · 899 阅读 · 0 评论 -
强化学习基础 | (3) 用动态规划(DP)求解
原文地址作者:刘建平在马尔科夫决策过程(MDP)中,我们讨论了用马尔科夫假设来简化强化学习模型的复杂度,这一篇我们在马尔科夫假设和贝尔曼方程的基础上讨论使用动态规划(Dynamic Programming, DP)来求解强化学习的问题。动态规划这一篇对应Sutton书的第四章和UCL强化学习课程的第三讲。文章目录1. 动态规划和强化学习问题的联系2. 策略评估求解预测问题3. 策略评估求解实例4. 策略迭代求解控制问题5. 价值迭代求解控制问题6. 异步动态规划算法7. 动态规划求解强化学习问题小结转载 2020-08-20 11:12:09 · 1134 阅读 · 0 评论 -
强化学习基础 | (2) 马尔科夫决策过程(MDP)
原文地址作者:刘建平在模型基础中,我们讲到了强化学习模型的8个基本要素。但是仅凭这些要素还是无法使用强化学习来帮助我们解决问题的, 在讲到模型训练前,模型的简化也很重要,这一篇主要就是讲如何利用马尔科夫决策过程(Markov Decision Process,以下简称MDP)来简化强化学习的建模。文章目录1. 强化学习引入MDP的原因2. MDP的价值函数与贝尔曼方程3. 状态价值函数与动作价值函数的递推关系4. 最优价值函数5. MDP实例6. MDP小结1. 强化学习引入MDP的原因强化学习的转载 2020-08-19 11:13:20 · 1414 阅读 · 0 评论 -
强化学习基础 | (1) 模型基础
原文地址作者:刘建平强化学习基础专栏主要转载自博客园刘建平老师的强化学习系列博客。该系列博客主要参考的资料是Sutton的强化学习书和UCL强化学习的课程。“希望写完后自己的强化学习碎片化知识可以得到融会贯通,也希望可以帮到更多的人,毕竟目前系统的讲解强化学习的中文资料不太多。”第一篇会从强化学习的基本概念讲起,对应Sutton书的第一章和UCL课程的第一讲。文章目录1. 强化学习在机器学习中的位置2. 强化学习的建模3. 强化学习的简单实例1. 强化学习在机器学习中的位置强化学习的学习思路和人转载 2020-08-19 09:52:00 · 505 阅读 · 0 评论