强化学习(Reinforcement Learning)入门知识

原创已于 2022-11-10 20:00:10 修改 · 1k 阅读

CC 4.0 BY-SA版权

文章标签：

于 2022-11-07 13:11:15 首次发布

强化学习(Reinforcement Learning)

在这里插入图片描述

物理意义：随机变量在某个确定的取值点附近的可能性

**例如：高斯分布（正态分布）**的概率密度函数如下
- **μ **是均值
- **σ **是标准差
- 横轴为随机变量的取值，纵轴为概率密度
- 曲线为高斯分布的概率密度函数p(X)，这个概率密度说明 X 在原点附近取值的概率比较大，远离原点的地方取值的概率比较小。
  
  **离散的概率分布: **
- 随机变量只能取{1,3,7}这几个值，X=1时的概率为0.2，X=3的概率为0.5，X=7的概率为0.3，其它任何地方概率都为0。

在这里插入图片描述

10个球：2红3蓝5绿，随机取一个，概率0.2红0.3蓝0.5绿，颜色为随机变量，红/蓝/绿为观测值，该过程即为**随机抽样（Random Sampling）****
球数未知：抽取记录颜色再放回，大量试验后，计算每个颜色出现概率（例如0.2、0.3 、0.5），也是随机抽样（Random Sampling）

强化学习的学习机制：学习如何从状态映射到行为以使得获取的奖励最大。代理（agent）需要不断地在环境中进行实验，通过环境给予的反馈（奖励）来不断优化状态-行为的对应关系。

强化学习最重要的两个特征：反复实验(trial and error）、延迟奖励（delayed reward）

请添加图片描述

从当前状态S_t 出发，作出一个行为A_t 后，对环境产生一些影响，然后环境对Agent产生反馈R_t+1 ,进而Agent进入一个新的状态S_t+1 。

t 时刻的 return : U_t = R_t + R_t+1 + R_t+2 + R_t+3 + …

未来的不确定性很大，所以未来 R_t+1 的权重应该比 R_t 低，也就是对 R_t+1 打一个折扣，那么定义这个折扣值（折扣率）为 γ（0<γ<1）
(折扣率) γ 是一个超参数需要自己定义，其设置对强化学习有一定的影响
- 每个奖励 R_i 都和状态 S_i 和 A_i 有关，那么 U_t 就跟 t 时刻开始未来所有的状态和动作相关

用于评估当前形式如何，可以对 U_t 求期望，将得到的数记作 Q_π
如何求 Q_π 呢？
- 未来的动作A和状态S都有随机性，动作A的概率密度函数是policy函数π(a|s)，状态S的概率密度函数是状态转移函数p(s’ |s,a)，利用积分及概率密度函数求其期望，则避免了考虑未来状态以及动作的随机性
- 所以，此时 Q_π 只与当前状态 S_t 和动作 A_t 有关
- 函数 Q_π 与policy 函数 π 有关，因为积分的时候需要用到policy函数