
Lee Hung-yi强化学习
Lee Hung-yi强化学习课程(2018)笔记整理。本专栏主要转载自优快云 博主qqqeeevvv,原专栏地址:https://blog.youkuaiyun.com/acl_lihan/category_9668780.html。
CoreJT
中科院自动化所在读直博生,感兴趣的研究方向:文本分类、情感分析、机器阅读理解与问答系统以及对话系统。
展开
-
Lee Hung-yi强化学习 | (8) Imitation Learning
Lee Hung-yi强化学习专栏系列博客主要转载自优快云博主 qqqeeevvv,原专栏地址 课程视频 课件地址 上一篇笔记讲了reward很稀疏的情况,但是在实际中,可能问题还会更进一步:很多场景是很难有一个明确的reward甚至没有reward。所以需要很厉害的agent或者直接由人来示范的资料/数据,让agent跟着做。 本文会讲两个Imitation Learning的方法: 1)Behavior Cloning 2)Inverse Reinforcement Learning (IRL) 1.转载 2020-09-03 15:11:08 · 247 阅读 · 0 评论 -
Lee Hung-yi强化学习 | (7) Sparse Reward
Lee Hung-yi强化学习专栏系列博客主要转载自优快云博主 qqqeeevvv,原专栏地址 课程视频 课件地址 在强化学习的训练过程中,当环境的reward很少时(指出现的次数),这样对agent的训练是很不利的。比如,让一个机器人拿起螺丝刀,再把螺丝拧进去才能得到reward。这一系列操作组合起来对于一个一开始什么都不懂的机器人无疑是很难的,因为它一开始不管做什么动作都不会得到reward,即便有exploration也只有极小的几率能成功获得reward。 所以下面介绍几种方法来处理这种Spars转载 2020-09-03 14:40:24 · 415 阅读 · 0 评论 -
Lee Hung-yi强化学习 | (6) Actor-Critic、A2C、A3C、Pathwise Derivative Policy Gradient
Lee Hung-yi强化学习专栏系列博客主要转载自优快云博主 qqqeeevvv,原专栏地址 课程视频 课件地址 1. 回顾 Policy Gradient G表示在状态s采取动作a一直玩到游戏结束所得到的cumulated reward。这个值是不稳定的,因为在某一个state采取同一个action,最后的结果不一定相同。因为state的变化也是有随机性的。 虽然经过多次实验后,可能会发现G最后会变成一个比较稳定的分布,那么理论上收集足够多的数据就能解决这一问题。但是因为policy gradie转载 2020-09-03 11:07:33 · 254 阅读 · 0 评论 -
Lee Hung-yi强化学习 | (5) Q-learning用于连续动作 (NAF算法)
Lee Hung-yi强化学习专栏系列博客主要转载自优快云博主 qqqeeevvv,原专栏地址 课程视频 课件地址 普通的Q-learning比policy gradient比较容易实现,但是在处理连续动作(比如方向盘要转动多少度)的时候就会显得比较吃力。 因为如果action是离散的几个动作,那就可以把这几个动作都代到Q-function去算Q-value。但是如果action是连续的,此时action就是一个vector,vector里面又都有对应的value,那就没办法穷举所有的action去算Q-转载 2020-09-02 15:23:06 · 752 阅读 · 0 评论 -
Lee Hung-yi强化学习 | (4) Q-learning更高阶的算法
Lee Hung-yi强化学习专栏系列博客主要转载自优快云博主 qqqeeevvv,原专栏地址 课程视频 课件地址 1. Double DQN(DDQN) DQN的Q-value往往是被高估的,如下图: 上图为四个游戏的训练结果的对比。 橙色的曲线代表DQN估测的Q-value,橙色的直线代表DQN训练出来的policy实际中获得的Q-value. 蓝色的曲线代表Double DQN估测的Q-value,蓝色的直线代表Double DQN训练出来的policy实际中获得的Q-value. 由图可以看出两转载 2020-09-02 10:46:54 · 258 阅读 · 0 评论 -
Lee Hung-yi强化学习 | (3) Q-learning(Basic Idea)
Lee Hung-yi强化学习专栏系列博客主要转载自优快云博主 qqqeeevvv,原专栏地址 课程视频 课件地址 1. Q-Learning Q-learning 是 value-based 的方法,在这种方法中我们不是要训练一个 policy,而是要训练一个critic网络。critic 并不直接采取行为/动作,只是对现有的 actor π\piπ,评价它的好坏。 2. Value-Function critic 给出了一个 value function Vπ(s)V^\pi(s)Vπ(s),代表在转载 2020-09-01 11:16:24 · 239 阅读 · 0 评论 -
Lee Hung-yi强化学习 | (2) Proximal Policy Optimization算法(PPO)
Lee Hung-yi强化学习专栏系列博客主要转载自优快云博主 qqqeeevvv,原专栏地址 课程视频 课件地址 1. On-policy vs. Off-policy 所谓 on-policy (左图)指我们学习的 agent(即actor) 和与环境交互的 agent 是相同的,即 agent 一边和环境互动,一边学习; 而 off-policy (右图)指我们学习的 agent 与环境交互的 agent 是不同的,即 agent 通过看别人玩游戏来学习。 on-policy的过程是这样的: 1转载 2020-08-31 21:24:58 · 328 阅读 · 1 评论 -
Lee Hung-yi强化学习 | (1) Policy Gradient
Lee Hung-yi强化学习专栏系列博客主要转载自优快云博主 qqqeeevvv,原专栏地址 课程视频 课件 1. 回顾 在强化学习中,主要有三个部件(components):actor、environment、reward function。其中env和reward function是事先就定好的,你不能控制。唯一能调整的是actor的policy,使actor能获得最大的reward。 policy是actor中起决策作用的一个东西,决定了actor的行为。可以理解为是一个函数,输入是状态(st转载 2020-08-31 16:36:27 · 279 阅读 · 0 评论