
强化学习
文章平均质量分 91
涛涛北京
结构建设
展开
-
【强化学习公式理解】
看了视频后,发现对RL的理解浮于表面,很多问题想不明白,所以停下来整理下公式,加深对理论的理解程度再继续推进。 第三章 Return 在一次实验中,时间步t之后的奖励记做 Rt+1, Rt+2, Rt+3, . . ., 片段奖励Gt:= Rt+1+ Rt+2+ Rt+3+· · ·+ RT, 式子(3.1): 这个地方最后一个状态是否一定是终结状态呢?这个我现在也不知...原创 2020-04-01 23:09:13 · 1656 阅读 · 0 评论 -
【David Silver-强化学习笔记】p2、马尔科夫模型
2.1 马尔科夫过程 Markov decision process 是用来对环境建模的模型,这个环境是fully observable的,即便是partially observable也可以转化为MDP。所以在强化学习领域,几乎所有的问题都可以转化为MDP模型。 2.1.1 Markov property 2.1.2 State Transition Matrix 假如agent有不同的状态,...原创 2020-02-25 21:28:15 · 915 阅读 · 2 评论 -
【David Silver-强化学习笔记】p1、Introduction
占位符原创 2020-02-21 11:40:25 · 727 阅读 · 0 评论 -
【李宏毅-强化学习笔记】p8、Imitation Learning
Imitation learning就是模仿学习,以聊天及机器人为例,我们很难去定义reward function,但我们手上有大量的对话数据。然后我们就让机器去模仿人类来对话,采取的方法主要有两种:behavior cloning和inverse reinforce learning。 一、behavior cloning 监督学习的方式,例如用CNN训练一个model,看到某个图片就突出a...原创 2020-02-13 20:35:04 · 396 阅读 · 0 评论 -
【李宏毅-强化学习笔记】p7、Sparse reward
首先sparse reward是什么意思呢?有很多情况下,我们做很多事是没有reward的,例如考研,我们每天看书、做习题然后不断的重复都没有奖励值,但是一旦考上了,就会有丰厚的奖励,这样总体来看,我们获得的奖励类似于: 0,0,0,…0,0,100 这就称为稀疏奖励。 一、reward shaping(塑造) 想法就是:认为的设置一些reward来引导agent...原创 2020-02-13 15:29:53 · 470 阅读 · 0 评论 -
【李宏毅-强化学习笔记】p6、Actor-Critic
一、policy gradient回顾 G是看到st后采取at之后获取的收益总和,但是这个值是一个分布值,在不同的episode中可能波动会很大。如果有足够的数据的话,这不是一个问题,当数据不足的时候,那么模型的波动会很大,希望用期望值来代替采样(当前的)值。就是说,训练一个network,输入为s输出为奖励的期望值。 二、Q_learning回顾 V是态势评估,Q是引导选择。 三、Actor...原创 2020-02-12 22:55:11 · 438 阅读 · 0 评论 -
【李宏毅-强化学习笔记】p3-p5、Q_learning
一、introduction of Q_learning 首先还是讲一下Q_learning的朴素理解:还记得蒙牛的牛仁根吗?他曾经说过:别问我的一双手能干多少事,惟问移泰山需要多少双手;别问我的一口锅能煮多少斤米,惟问劳千军需要多少口锅;别问我的一盏灯能照多少里路,惟问亮天下需要多少盏灯。这段话和Q_learning的思想有异曲同工之妙。 牛仁根的这段话鼓励我们志存高远,遇到困难披荆斩棘而不是望...原创 2020-02-11 18:23:17 · 710 阅读 · 0 评论 -
【李宏毅-强化学习笔记】p1-p2、PPO
一、policy gradient回顾 PPO是对policy gradient 的改进版,首先回顾下policy gradient并介绍两个tips。Policy gradient的背景是:我们现在有N笔数据,现在用着这些数据来优化agent也就是π-function。其中每一笔数据是: τ= {s1, a1,r1, s2, a2,r2,…,sT,aT,rT} 通过对奖励值微分,我们可以得到...原创 2020-02-09 20:23:21 · 1446 阅读 · 3 评论 -
【李宏毅-强化学习笔记】一、深度强化学习surface
一原创 2020-02-04 11:42:53 · 1618 阅读 · 1 评论