强化学习基本概念(state、Action、Policy、Reward、Trajectory、Return、Discounted Return、Episode)

1. State

如下图所示,对于如图所示的表格来讲,强化学习中的state其实就是 s1~s9 的位置,如图所示共有九个位置,那就对应有9种状态。

ps:在该例子中这些状态其实就是代表的索引,形如(x, y),在更加复杂的例子中可能会有速度、加速度等其他类型的状态信息。

这9种状态的集合就是所谓的状态空间。

图1 状态及状态空间

2. Action

action其实就是在某个状态下所采取的行动,例如,对于每个状态可以有五种可能得action,往上、下、左、右走,以及不动。

如果将 一个状态的 所有的action放到一起就形成了 行为空间 ,A(si),表明行为空间是关于 si 的,不同的状态所对应的行为空间可能不同。

图2 行为及行为空间

3. State transition

3.1 State transition基本概念

State transition实际上是定义agent(行为的主体)和环境的一种交互行为,当采取某个action时,agent从当前的state移动到了另外一个state,这个过程称为state transition。

图3.1 State transition

3.2 Forbidden area的两种情况

对于forbidden area,有两种可能,一种是可以通过,但会被惩罚,另一种是不可通过,一般情况下我们考虑第一种情况。

图3.2 forbidden area的两种可能

3.3 State transition的表格展示

对于本文的例子,state transition可以用表格的形式表达出来:

该表格的每一行都对应一种状态,每一列都对应一种行为。

但是这种表格只能适用于最简单的这种deterministic的情况,即在每个state中采取一种action,最终生成的结果都是确定的。

图3.3 表格形式呈现的State transition

3.4 通用情况下的State transition

对于更加通用的一种情形,需要采用State transition probability,如下图所示:图中公式是一个条件概率,意思是当处在s1状态下时,选择a2行为,下个状态是s2的概率是多少。图中所举例子概率为1,且下个状态不是s2的概率为0。

ps:对于某些情况可能需要考虑其他因素,比如有风,他就会导致运动偏移,比如p(s2|s1, a2) = 0.5, p(s5|s1, a2) = 0.5,由于风的影响,让运动产生了偏移,有0.5的概率会落在s5。

图3.4 适用于一般情况下的数学表达的State transition

4. Policy

策略其实就是告诉agent,在当前这个state上,下一步应该采取什么样的action,抽象出来就是图中箭头轨迹,对于9种state,给出了9个对应的Policy。

4.1 Deterministic Policy

图4.1.2 Policy

用数学方法来表示的话,如下图所示,对于s1这个状态而言,下一步采取的action就会根据policy给出的probability来确定,其中π并不是圆周率的意思,在强化学习中,π统一指策略,本质上就是条件概率的意思。

图4.1.2 数学表达的Policy

4.2 Stochastic Policy

上述情况为确定性的情况,针对不确定性的情况,其数学表达如下图所示,对于state s1,往右和往下的概率都为0.5

图4.2 非确定性Policy

4.3 Policy的表格展示

表中每一行代表一个状态,每一列代表一个行为,表格数据代表对应的概率。

图4.3 表格形式的Policy

5. Reward

5.1 reward的含义

首先reward是一个实数,标量,当agent采取了一个action之后就会得到一个reward,reward为正数时,代表鼓励该行为,reward为负数时代表惩罚这种行为。当reward为0时,不对该行为进行惩罚,即在一定程度上鼓励该行为。

图5.1reward的含义

5.2 reward的规则制定范例与直观理解

对于本文采用的网格示例,可以设置如下规则来帮助理解Reward,当尝试越过边界,Reward值为-1,当进入Forbidden area,Reward值为-1,当到达target area,Reward值为+1 ,其他情况为0。

图5.2 reward的规则制定范例与直观理解

5.3 reward的表格展示

但是这种表格形式只能表示deterministic的情况,即对于一个state采取一种action,我一定能得到一个确定的reward。

图5.3 reward的表格展示

5.4 reward的通用表达(条件概率)

上述表格展示仅仅适用于deterministic的情况,但在很多情况中,实际会得到的reward的大小是不确定的,因此表格的形式就不再适用。这时就可以用更加一般化的方法,即数学的方法:条件概率

图5.4 reward的条件概率表达

ps:这里需要注意!!!reward只依赖于当前的state和在当前这个state中采取的action,与下一个state并没有关系!!

6. Trajectory and Return

6.1 Trajectory and Return的基本概念

Trajectory其实就是一个关于state、action、reward的路径,Return就是将整个Trajectory上的所有reward加起来,这就是Return。

图6.1 Trajectory and Return的计算

6.2 Policy与Trajectory and Return的关联

不同的Policy对应不同的Trajectory and Return

图6.2 第二种policy对应的Trajectory and Return

6.3 Return的作用

对于上面的两种Policy,虽然最终都到达了target area,但是哪一个更好一些呢?其实直观上来讲,第一个好一些,因为第二个经过了forbidden area,比较二者的Return值可以发现,第一个return值为1,第二个return值为0,其实return可以用来评判一个Policy的好坏。

图 6.3 return的作用

7. Discounted return

7.1 常规return会遇到的问题

在实际进行运算时可能遇到这样一种情况,当agent到达target aera之后一直执行a5,但是这样的话就会导致return一直累加,无限大。

图7.1 常规return计算

7.2 discount rate

为解决上述reward值无限累加造成return趋于无穷大的问题,引入discount rate,如下图所示:γ越趋近0,衰减得越快,后续的影响就越小,这时最终的return值其实主要依赖于最开始的reward,相反当γ越趋近于1时后续的衰减就越慢,通过控制γ可以控制agent学到的策略,简单来讲就是减小γ会让agent更加近视,相反会让agent更加远视。

图7.2 discounted return

8. Episode

8.1 Episodic tasks

当agent从一个state出发,到达了target state,这期间的路程就叫做Episode,一个Episode通常是有限步的,这样的一个任务也被称为Episodic tasks。

图8.1 Episodic tasks

8.2 continuing tasks

对于没有terminal states的任务,称为continuing tasks,但是现实世界中基本没有这种情况,因此会将周期很长的任务近似称为continuing tasks

图8.2 Episodic tasks和continuing tasks的统一表示策略

9. 上述概念在MDP中的存在形式

图9 各概念在MDP中的体现

10. Markov process和Markov decision process

如下图所示,右图代表Markov process,对于Markov decision porcess,一旦确定了policy就会变成Markov process。

图10 Markov process和Markov decision process的关系

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值