强化学习基本概念（state、Action、Policy、Reward、Trajectory、Return、Discounted Return、Episode）

原创已于 2025-03-02 13:20:12 修改

· 990 阅读

9 ·

版权

文章标签：

#算法 #python #深度学习

于 2025-02-16 23:03:48 首次发布

强化学习专栏收录该内容

2 篇文章

订阅专栏

1. State

如下图所示，对于如图所示的表格来讲，强化学习中的state其实就是 s1~s9 的位置，如图所示共有九个位置，那就对应有9种状态。

ps：在该例子中这些状态其实就是代表的索引，形如（x, y)，在更加复杂的例子中可能会有速度、加速度等其他类型的状态信息。

这9种状态的集合就是所谓的状态空间。

图1 状态及状态空间

2. Action

action其实就是在某个状态下所采取的行动，例如，对于每个状态可以有五种可能得action，往上、下、左、右走，以及不动。

如果将一个状态的所有的action放到一起就形成了行为空间，A（si），表明行为空间是关于 si 的，不同的状态所对应的行为空间可能不同。

图2 行为及行为空间

3. State transition

3.1 State transition基本概念

State transition实际上是定义agent（行为的主体）和环境的一种交互行为，当采取某个action时，agent从当前的state移动到了另外一个state，这个过程称为state transition。

图3.1 State transition

3.2 Forbidden area的两种情况

对于forbidden area，有两种可能，一种是可以通过，但会被惩罚，另一种是不可通过，一般情况下我们考虑第一种情况。

图3.2 forbidden area的两种可能

3.3 State transition的表格展示

对于本文的例子，state transition可以用表格的形式表达出来：

该表格的每一行都对应一种状态，每一列都对应一种行为。

但是这种表格只能适用于最简单的这种deterministic的情况，即在每个state中采取一种action，最终生成的结果都是确定的。

图3.3 表格形式呈现的State transition

3.4 通用情况下的State transition

对于更加通用的一种情形，需要采用State transition probability，如下图所示：图中公式是一个条件概率，意思是当处在s1状态下时，选择a2行为，下个状态是s2的概率是多少。图中所举例子概率为1，且下个状态不是s2的概率为0。

ps：对于某些情况可能需要考虑其他因素，比如有风，他就会导致运动偏移，比如p(s2|s1, a2) = 0.5, p(s5|s1, a2) = 0.5，由于风的影响，让运动产生了偏移，有0.5的概率会落在s5。

图3.4 适用于一般情况下的数学表达的State transition

4. Policy

策略其实就是告诉agent，在当前这个state上，下一步应该采取什么样的action，抽象出来就是图中箭头轨迹，对于9种state，给出了9个对应的Policy。

4.1 Deterministic Policy

图4.1.2 Policy

用数学方法来表示的话，如下图所示，对于s1这个状态而言，下一步采取的action就会根据policy给出的probability来确定，其中π并不是圆周率的意思，在强化学习中，π统一指策略，本质上就是条件概率的意思。

图4.1.2 数学表达的Policy

4.2 Stochastic Policy

上述情况为确定性的情况，针对不确定性的情况，其数学表达如下图所示，对于state s1，往右和往下的概率都为0.5

图4.2 非确定性Policy

4.3 Policy的表格展示

表中每一行代表一个状态，每一列代表一个行为，表格数据代表对应的概率。

图4.3 表格形式的Policy

5. Reward

5.1 reward的含义

首先reward是一个实数，标量，当agent采取了一个action之后就会得到一个reward，reward为正数时，代表鼓励该行为，reward为负数时代表惩罚这种行为。当reward为0时，不对该行为进行惩罚，即在一定程度上鼓励该行为。

图5.1reward的含义

5.2 reward的规则制定范例与直观理解

对于本文采用的网格示例，可以设置如下规则来帮助理解Reward，当尝试越过边界，Reward值为-1，当进入Forbidden area，Reward值为-1，当到达target area，Reward值为+1 ，其他情况为0。

图5.2 reward的规则制定范例与直观理解

5.3 reward的表格展示

但是这种表格形式只能表示deterministic的情况，即对于一个state采取一种action，我一定能得到一个确定的reward。

图5.3 reward的表格展示

5.4 reward的通用表达（条件概率）

上述表格展示仅仅适用于deterministic的情况，但在很多情况中，实际会得到的reward的大小是不确定的，因此表格的形式就不再适用。这时就可以用更加一般化的方法，即数学的方法：条件概率

图5.4 reward的条件概率表达

ps：这里需要注意！！！reward只依赖于当前的state和在当前这个state中采取的action，与下一个state并没有关系！！

6. Trajectory and Return

6.1 Trajectory and Return的基本概念

Trajectory其实就是一个关于state、action、reward的路径，Return就是将整个Trajectory上的所有reward加起来，这就是Return。

图6.1 Trajectory and Return的计算

6.2 Policy与Trajectory and Return的关联

不同的Policy对应不同的Trajectory and Return

图6.2 第二种policy对应的Trajectory and Return

6.3 Return的作用

对于上面的两种Policy，虽然最终都到达了target area，但是哪一个更好一些呢？其实直观上来讲，第一个好一些，因为第二个经过了forbidden area，比较二者的Return值可以发现，第一个return值为1，第二个return值为0，其实return可以用来评判一个Policy的好坏。

图 6.3 return的作用

7. Discounted return

7.1 常规return会遇到的问题

在实际进行运算时可能遇到这样一种情况，当agent到达target aera之后一直执行a5，但是这样的话就会导致return一直累加，无限大。

图7.1 常规return计算

7.2 discount rate

为解决上述reward值无限累加造成return趋于无穷大的问题，引入discount rate，如下图所示：γ越趋近0，衰减得越快，后续的影响就越小，这时最终的return值其实主要依赖于最开始的reward，相反当γ越趋近于1时后续的衰减就越慢，通过控制γ可以控制agent学到的策略，简单来讲就是减小γ会让agent更加近视，相反会让agent更加远视。