机器学习基础——强化学习

Jokic_Rn

已于 2022-06-10 15:02:18 修改

阅读量790

点赞数

分类专栏：深度学习文章标签：机器学习概率论人工智能

于 2022-05-02 11:32:32 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_44823313/article/details/124538382

版权

深度学习专栏收录该内容

15 篇文章

订阅专栏

本文介绍了强化学习的基本概念，包括状态、行为、策略和回报。状态价值函数Vπ(s)和动作价值函数Qπ(s,a)是评估状态和行为好坏的关键。在马尔科夫决策过程中，利用贝尔曼方程进行状态价值函数的计算，可以通过蒙特卡洛（MC）和动态规划（DP）方法。动态规划在有模型时适用，而蒙特卡洛方法适用于不可知模型且有终止状态的情况。对于无模型情况，除了MC，还可以使用时间差分（TD）学习。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

强化学习

参考视频：强化学习周博磊

基本概念

State $s$ ：表示当前状态
Action $a$ ：表示当前当前行为
Policy $\pi$ ： $A\sim\pi(a|s)$ 表示根据当前状态做出行为a的概率分布策略, $A$ 为离散型随机变量时， $\pi$ 为一个概率， $A$ 为连续型随机变量时， $\pi$ 为概率密度。
return $G_t$ : $G_t = R_{t+1}+\gamma R_{t+2}+...\gamma^{k}R_{t+k+1}$

State-value function状态价值函数，用来评估当前状态的好坏 $V_\pi(s)$
$V_\pi(s) = E_\pi[G_t|S_t=s]$

Action-value function 动作价值函数 $Q_\pi(s,a)$
$Q_\pi(s,a) = E[G_t|S_t=s,A_t=a]$
二者关系： $V_\pi(s)= \sum_a \pi(a|s)Q_\pi(s,a)$

状态价值函数求解

将 $G_t$ 表达式代入 $V_\pi(s) = E_\pi[G_t|S_t=s]$ 中可得到Bellman Equation： $V_\pi(s) = R(s) + \sum _{s'}\gamma p(s'|s)V_\pi(s')$
将上式写成矩阵形式：
在这里插入图片描述
从理论上能够得出状态价值函数的值，但是由于真实模型很多时候不可知，或者模型并非马尔科夫决策过程（MDP）， $R$ 和 $P$ 是无法获得的，即便可以得到，利用这种计算方式往往计算量会很大。

对于MDP的状态价值函数计算有两种常用的方法：蒙特卡洛（MC），和动态规划(DP)

MC：根据某一状态 $s_1$ ，自助采样生成一系列轨迹，计算return值，取平均值作为 $V(s_1)$ ，用同样的办法得到其他的 $V(S_t)$
DP：利用迭代的办法计算 $V_\pi(s) = R(s) + \sum _{s'}\gamma p(s'|s)V_\pi(s')$ 或者迭代计算 $V_\pi(s) = \sum_a\{ \pi(a|s)[R(s) + \sum _{s'}\gamma p(s'|s)V_\pi(s')]\}$ ，这种方法考虑了所有状态的转移，因此无模型时候，无法使用DP。

当不需要考虑实际决策时候，用Bellman Equation即可获得状态价值函数，但当决策需要被考虑时，用Bellman Expectation Equation来导出:
$V_\pi(s) = \sum_a\{ \pi(a|s)[R(s) + \sum _{s'}\gamma p(s'|s)V_\pi(s')]\}$
$Q_\pi(s,a) = R(s,a)+\gamma \sum_{s'} p(s'|s,a)\sum_{a'} \pi(a'|s')Q_\pi(s',a')$