
强化学习
文章平均质量分 88
Glen 997
专注,垂直,好好学习
中科院在读计算机博士生
展开
-
强化学习资料汇总
http://deeprl.neurondance.com/d/154/3原创 2021-04-26 10:35:26 · 458 阅读 · 0 评论 -
Imitation Learning
Imitation Learning,也被称作learning from demonstration 或者 apprenticeship learning。针对的是没有回报的场景。文章目录1. 介绍Imitation Learning2. Behavior CloningInverse RL1. 介绍Imitation Learning在 Imitation learning 里面,你有一些 expert 的 demonstration,那 machine 也可以跟环境互动,但它没有办法从环境里面得到原创 2021-04-21 21:43:14 · 937 阅读 · 0 评论 -
强化学习中Sparse Reward问题该怎么解决?
Sparse Reward 是指稀疏回报,在很多强化学习场景中,大多数情况下是没有回报的,举个例子来说:假设你要训练一个机器手臂,然后桌上有一个螺丝钉跟螺丝起子,那你要训练它用螺丝起子把螺丝钉栓进去,这是很难的。因为一开始你的 agent 是什么都不知道的,它唯一能够做不同的 action 的原因是 exploration,也就是会有一些随机性,让它去采取一些过去没有采取过的 action,那你要随机到说,它把螺丝起子捡起来,再把螺丝栓进去,然后就会得到 reward 1,这件事情是永远不可能发生的。如原创 2021-04-19 17:13:50 · 1835 阅读 · 3 评论 -
【详解+推导!!】DQN
DQN,Deep Q-Network 是Q-Learning和深度网络结合的一种算法,在很多强化学习问题中表现优异。在看DQN之前建议先了解一下Q-Learning的基本原理:https://blog.youkuaiyun.com/qq_33302004/article/details/114871232也可以看一下value-based 和 policy-based 方法的基本介绍:https://blog.youkuaiyun.com/qq_33302004/article/details/115189857文章目录1.原创 2021-04-16 16:30:28 · 3099 阅读 · 0 评论 -
【详解+推导!!】PPO 近端策略优化
近端策略优化(PPO, Proximal Policy Optimization)是强化学习中十分重要的一种算法,被 OpenAI 作为默认强化学习算法,在多种强化学习应用中表现十分优异。文章目录From On-policy to Off-policyImportance SamplingFrom On-policy to Off-policy如果被训练的agent和与环境做互动的agent(生成训练样本)是同一个的话,那么叫做on-policy(同策略)。如果被训练的agent和与环境做互动的a原创 2021-04-13 21:23:27 · 7574 阅读 · 4 评论 -
【详解+推导!!】Pathwise Derivative Policy Gradient(PDPG)
Pathwise Derivative Policy Gradient(PDPG) 是一种强化学习方法,可以解决连续动作的问题。文章目录1. 前缀知识2. 如何理解这个算法与Actor-Critic对比理解与Q-Learning对比理解3. 算法过程1. 前缀知识如果想比较深刻的理解Pathwise Derivative Policy Gradient(PDPG)需要提前了解一下内容:Policy Gradient:https://blog.youkuaiyun.com/qq_33302004/article原创 2021-04-09 15:20:56 · 2478 阅读 · 1 评论 -
【详解+推导!!】Actor-Critic 演员评论家算法
Actor-Critic,演员评论家算法是强化学习中的一种很实用的方法。比较详细的推导可以看:https://datawhalechina.github.io/easy-rl/#/chapter9/chapter9?id=actor-critic-1文章目录1. 简介2. Review: Policy Gradient3. Review: Q-Learning3. Actor-Critic4. Advantage Actor-Critic整个过程如下:Tips:5.A3C, Asynchronous原创 2021-04-09 10:28:28 · 27147 阅读 · 2 评论 -
【详解+推导!!】Policy Gradient 策略梯度法
Policy Gradient,策略梯度法是强化学习中的一种常用方法。比较详细的推导可以看:https://datawhalechina.github.io/easy-rl/#/chapter4/chapter4?id=tips文章目录1. 定义强化学习的问题2. Policy Network3. Policy Network 训练过程如下:4. 实现过程中的TipsTip 1: Add a BaselineTip 2: Assign Suitable Credit1. 定义强化学习的问题强化学习由原创 2021-04-07 22:23:30 · 5983 阅读 · 1 评论 -
【详解+推导!!】蒙特卡洛方法、接受拒绝采样、重要性采样、MCMC方法
蒙特卡洛方法、接受拒绝采样、重要性采样、MCMC方法文章目录一、蒙特卡洛方法1. 什么是蒙特卡洛方法2. 蒙特卡洛积分推导3.python实例承上启下二、接受-拒绝采样1. 核心思想介绍2. 例子三、重要性采样1. 普通重要性采样2. 方差分析3. 加权重要性采样四、MCMC方法1. 马氏链平稳分布2. 平稳分布判定:细致平稳条件3. 构造状态转移概率矩阵PPP4. MCMC的算法步骤5. Metropolis-Hastings采样方法最后推荐几篇相关文章:一、蒙特卡洛方法1. 什么是蒙特卡洛方法蒙原创 2021-03-30 22:44:59 · 13642 阅读 · 4 评论 -
策略迭代算法和值函数迭代算法
策略迭代算法和值函数迭代算法文章目录1. 回顾与引言2. 思路介绍3. 策略评估算法3. 策略优化算法4. 策略迭代算法和值函数迭代算法5. 代码实现6. 强化学习与最优控制1. 回顾与引言上一章中介绍了马尔科夫决策过程(MDP),也介绍了状态值函数和行为-状态值函数的计算方法。由此我们已经完成了对强化学习问题的建模过程,我们知道强化学习就是寻找一个最优策略π\piπ,保证一个已知的MDP(S,A,P,r,γ)(S, A, P, r, \gamma)(S,A,P,r,γ)的累计回报期望最大,也就是:原创 2021-03-24 22:50:24 · 5741 阅读 · 0 评论 -
【详解+推导!!】马尔可夫决策过程
马尔可夫决策过程, Markov Decision Process, MDP文章目录一、为什么需要马尔可夫决策过程?二、马尔可夫决策过程1. 马尔可夫性2. 随机过程3. 马尔可夫过程4. 马尔可夫决策过程三、策略与累计回报1. 策略2. 累计回报四、值函数1. 值函数2. “状态值函数”与“状态-行为值函数”五、什么是强化学习算法?一、为什么需要马尔可夫决策过程?[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YTGUytIs-1616223214043)(2021-0原创 2021-03-20 14:54:51 · 36269 阅读 · 8 评论 -
什么是强化学习?
什么是强化学习?文章目录1. 强化学习可以应用的场景2. 强化学习要解决的问题3. 强化学习主要研究思路和研究点:4. 强化学习与监督和非监督学习的对比5. 强化学习的分类6. 常用的技术和方法1. 强化学习可以应用的场景具体内容:游戏博弈、下棋、投资、课程安排、驾车、动作模仿;应用领域:机器人控制、汽车智能驾驶、人机对话、过程优化决策与控制等。2. 强化学习要解决的问题智能决策问题,更确切的说是序贯决策问题;所谓序贯决策问题就是需要连续不断的做决策才能实现最终目标的问题,如小车二级摆、原创 2021-03-18 11:36:09 · 754 阅读 · 0 评论 -
Sarsa/Sarsa(lambda)介绍、算法、以及与Q-Learning的对比
学习过程来自莫烦大神的视频:https://www.bilibili.com/video/BV13W411Y75P?p=9文章目录1. Sarsa与Q-Learning对比2. Sarsa(lambda)介绍3. Sarsa(lambda)算法1. Sarsa与Q-Learning对比两者决策部分相同,都是在Q表中选择价值较大的动作两者更新方式不同:QL的 Q现实 = R + γ * maxQ(s2),使用s2状态下的最大价值更新Q表,但是在下一步的s2状态下,不一定使用这个产生最大价值的动原创 2021-03-16 17:09:59 · 1355 阅读 · 1 评论 -
Q Learning概念、更新、代码实现
学习过程来自莫烦大神的视频:https://www.bilibili.com/video/BV13W411Y75P?p=5Q Learning概念、更新、代码实现1. 什么是Q Learning?2. Q表是如何更新的?3. Q Learning伪代码4. Q Learning简单实现:1维探索者例子1. 什么是Q Learning?Q Learning 是一种决策过程Q Learning 是一个offline学习过程存在以下的概念:当前智能体的状态:S(state)动作行为:A(act原创 2021-03-16 11:18:17 · 3718 阅读 · 3 评论 -
从0开始强化学习——强化学习的简介和分类
目录写在前面1. 强化学习简介2. 强化学习分类写在前面最近一直在给老板打工,已经很久没有写过博文了,最近打算系统学习一遍强化学习,所以就开个新坑,和大家分享一下在学习过程中的收获,未来一段时间将不定期更新~本文内容1. 强化学习简介2. 强化学习分类一、 强化学习简介强化学习(Reinforcement Learning, RL),是机器学习常见的方法之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定...原创 2021-01-11 22:08:52 · 3018 阅读 · 0 评论