
Reinforcement Learning
文章平均质量分 92
Mr丶Caleb
中国科学技术大学在读研究生
展开
-
蒙特卡罗方法(Monte Carlo Methods)
转自:http://www.cnblogs.com/jinxulin/p/3560737.html1. 蒙特卡罗方法的基本思想蒙特卡罗方法又叫统计模拟方法,它使用随机数(或伪随机数)来解决计算的问题,是一类重要的数值计算方法。该方法的名字来源于世界著名的赌城蒙特卡罗,而蒙特卡罗方法正是以概率为基础的方法。一个简单的例子可以解释蒙特卡罗方法,假设我们需要计算一个不规则图形的面转载 2017-03-23 11:04:19 · 5625 阅读 · 0 评论 -
深度强化学习(Deep Reinforcement Learning)入门:RL base & DQN-DDPG-A3C introduction
过去的一段时间在深度强化学习领域投入了不少精力,工作中也在应用DRL解决业务问题。子曰:温故而知新,在进一步深入研究和应用DRL前,阶段性的整理下相关知识点。本文集中在DRL的model-free方法的Value-based和Policy-base方法,详细介绍下RL的基本概念和Value-based DQN,Policy-based DDPG两个主要算法,对目前state-of-art的算法(A转载 2017-06-25 21:28:27 · 15567 阅读 · 2 评论 -
蒙特卡洛方法
什么时候使用蒙特卡洛方法: 蒙特卡洛方法适用于免模型的强化学习任务。(“免模型学习”对应于一类现实的强化 学习任务,在该类任务中,环境的转移概率、奖赏函数往往很难得知,甚至很难知道环境中一共有多少状态,因此,在该类学习任务中,学习算法不依赖于环境建模。) 为什么使用蒙特卡洛方法: 在免模型情形下,由于模型未知而导致无法做全概率展开,策略迭代酸中的策略无法评估,此时,只能通过在环境中原创 2017-06-07 09:21:12 · 8433 阅读 · 0 评论 -
时序差分学习(Temporal-Difference Learning)
时序差分学习(Temporal-Difference Learning)结合了动态规划和蒙特卡洛方法,是强化学习的核心思想。蒙特卡洛的方法是模拟(或者经历)一段序列,在序列结束后,根据序列上各个状态的价值,来估计状态价值。 时序差分学习是模拟(或者经历)一段序列,每行动一步(或者几步),根据新状态的价值,然后估计执行前的状态价值。 可以认为蒙特卡洛的方法是最大步数的时序差分学习。原创 2017-06-07 09:20:07 · 15369 阅读 · 0 评论 -
强化学习笔记03——有限马尔科夫过程
代理环境交互在强化学习中,将学习器和决策器称为代理,而与代理交互的事物称为环境。可将问题认为代理与环境的交互。 代理会产生一个与环境对应的策略,用πt\pi_{t}表示,πt(a|s)\pi_{t}(a|s)表示在状态为s的情况下采取动作a的概率。目标与报酬强化学习的目标就是最大化获得的报酬总和。 我们将代理与环境的一次完整交互过程称为一个episode.在一次episode中t时刻获得的期原创 2017-05-21 09:49:35 · 1682 阅读 · 0 评论 -
强化学习笔记01,02——强化学习问题和Multi-arm Bandits
人之所以能适应环境的变化并不断提高解决问题的能力,其原因是人能通过学习积累经验,总结规律,以增长知识和才能,从而更好地改善自己的决策和行为。强化学习的思想来源于人类对动物学习过程的长期观察。在机器学习范畴,依据从系统中获得的反馈不同,机器学习可以分为监督学习,无监督学习和强化学习。强化学习概念强化学习要解决的问题: 一个能够感知环境的自治智能体(Agent),如何通过学习选择能够达到目标的最优动作原创 2017-05-20 16:11:09 · 1820 阅读 · 0 评论 -
强化学习笔记04——动态规划
动态规划(DP)是指,当给出一个具体的环境模型已知的马尔科夫决定过程(MDP),可以用于计算其最佳策略的算法集合。经典DP算法在强化学习中的实用性有限,因为他们假定了一个具体的模型,并且还受限于它们的计算cost很高,但它在理论上仍然很重要。策略迭代通用策略迭代是: 1. 先从一个策略π0\pi _{0}开始, 2. 策略评估(Policy Evaluation) - 得到策略π0\pi _{0原创 2017-05-29 10:34:41 · 2432 阅读 · 1 评论 -
马尔可夫决策过程MDP
1. 马尔可夫模型的几类子模型大家应该还记得马尔科夫链(Markov Chain),了解机器学习的也都知道隐马尔可夫模型(Hidden Markov Model,HMM)。它们具有的一个共同性质就是马尔可夫性(无后效性),也就是指系统的下个状态只与当前状态信息有关,而与更早之前的状态无关。马尔可夫决策过程(Markov Decision Process, MDP)也具有马尔可夫性,转载 2017-03-17 09:23:44 · 862 阅读 · 0 评论 -
深度增强学习前沿算法思想【DQN、A3C、UNREAL,简介】
作者:Flood Sung,优快云博主,人工智能方向研究生,专注于深度学习,增强学习与机器人的研究。责编:何永灿,欢迎人工智能领域技术投稿、约稿、给文章纠错,请发送邮件至heyc@youkuaiyun.com本文为《程序员》原创文章,未经允许不得转载,更多精彩文章请订阅2017年《程序员》2016年AlphaGo计算机围棋系统战胜顶尖职业棋手李世石,引起了全世界的广泛关注,人工智转载 2017-08-04 23:33:23 · 1754 阅读 · 0 评论