强化学习——值（二）

wizard-黑影

于 2025-03-04 15:30:12 发布

阅读量432

点赞数 3

分类专栏：强化学习文章标签：算法机器学习人工智能

本文链接：https://blog.youkuaiyun.com/weixin_63311945/article/details/146017265

版权

强化学习专栏收录该内容

10 篇文章

订阅专栏

1 状态值和动作值

为了衡量一个策略的好坏就需要状态值，而策略是当前状态下采取动作的概率，所以需要使用动作值去评价应该使用的策略。

1.1 状态值（state value）

状态值就是当前状态到目标所经历的 trajectory 的期望 return，记为 $v_\pi(s)=E[G_t|S_t=s]$ （ $G_t$ 是使用当前策略的 return 值的随机变量），它与当前状态以及所选取的策略相关。

1.2 动作值（action value）

动作值就是当前状态，采取某个动作后到达最终目标所经历的 trajectory 的期望 return，记为 $q_\pi(s,a)=E[G_t|S_t=s,A_t=a]$ ，它除了与当前状态相关还与采取的动作有关。

2 贝尔曼公式（Bellman Equation）

为了计算出当前状态的 $v$ 和 $q$ ，根据定义
$\begin{align} v_\pi(s)&=E[G_t|S_t=s] \\ &=E[R_{t+1}|S_t=s]+\gamma E[G_{t+1}|S_t=s] &\text 习惯上把 R_{t+1}当成 t 时刻下的奖励\\ &=\displaystyle \sum_a \pi(a|s) \displaystyle \sum_r p(r|s,a) r+\gamma \displaystyle \sum_{s'} p(s'|s) E[G_{t+1}|S_t=s,S_{t+1}=s']\\ &=\displaystyle \sum_a \pi(a|s) \displaystyle \sum_r p(r|s,a) r+\gamma \displaystyle \sum_{s'} p(s'|s) E[G_{t+1}|S_{t+1}=s'] &\text {memoryless property}\\ &=\displaystyle \sum_a \pi(a|s) \displaystyle \sum_r p(r|s,a) r+\gamma \displaystyle \sum_{s'} E[G_{t+1}|S_{t+1}=s'] \displaystyle \sum_a \pi(a|s) p(s'|s,a) \\ &=\displaystyle \sum_a \pi(a|s) \displaystyle \sum_r p(r|s,a) r+\gamma \displaystyle \sum_{s'} v_\pi(s') \displaystyle \sum_a \pi(a|s) p(s'|s,a)\\ &=\displaystyle \sum_a \pi(a|s) \displaystyle \sum_r p(r|s,a) r+\gamma \displaystyle \sum_a \pi(a|s) \displaystyle \sum_{s'} p(s'|s,a)v_\pi(s'), \forall s \in S &\text{贝尔曼公式可以对所有的状态进行列写，有很多条} \end{align}$
这个是针对单个值来列的贝尔曼公式，从贝尔曼公式发现当前 $v_\pi(s)$ 可以由下个状态 $v_\pi(s')$ 求出，称为 bootstrap。
action value 的推导与 state value 差不多。
$\begin{align} q_\pi(s,a)&=E[G_t|S_t=s,A_t=a] \\ &=E[R_{t+1}|S_t=s,A_t=a]+\gamma E[G_{t+1}|S_t=s] \\ &=\displaystyle \sum_r p(r|s,a) r+\gamma \displaystyle \sum_{s'} p(s'|s) E[G_{t+1}|S_t=s,S_{t+1}=s',A_t=a]\\ &=\displaystyle \sum_r p(r|s,a) r+\gamma \displaystyle \sum_{s'} p(s'|s) E[G_{t+1}|S_{t+1}=s'] &\text {memoryless property}\\ &=\displaystyle \sum_r p(r|s,a) r+\gamma \displaystyle \sum_{s'} E[G_{t+1}|S_{t+1}=s'] p(s'|s,a) \\ &=\displaystyle \sum_r p(r|s,a) r+\gamma \displaystyle \sum_{s'} v_\pi(s') p(s'|s,a), \forall s \in S &\text{贝尔曼公式可以对所有的状态和动作的组合进行列写，有很多条} \end{align}$
比较两个式子也可以得出 $v_\pi(s)$ 关于 $q_\pi(s,a)$ 的表达式 $v_\pi(s)=\displaystyle \sum_a \pi(a|s) q_\pi(s,a)$

3 贝尔曼公式求解

单个值的贝尔曼公式无法写出解析解，往往需要多个公式联立，进而可以用矩阵乘法简化。
由公式 $v_\pi(s)=E[R_{t+1}|S_t=s]+\gamma E[G_{t+1}|S_t=s]$ ，当 $v_\pi,r_\pi$ 是一个多个状态的 $v_\pi(s)$ 和 $E[R_{t+1}|S_t=s]$ 的向量时。当状态空间维度为 n 时。
$\begin{bmatrix} v_\pi(s_1)\\ v_\pi(s_2)\\ \vdots\\ v_\pi(s_n) \end{bmatrix}= \begin{bmatrix} r_\pi(s_1)\\ r_\pi(s_2)\\ \vdots\\ r_\pi(s_n)\\ \end{bmatrix}+\gamma \begin{bmatrix} p(s_1|s_1)&p(s_1|s_2)&\cdots&p(s_1|s_n)\\ p(s_2|s_1)&p(s_2|s_2)&\cdots&p(s_2|s_n)\\ \vdots&\vdots&\ddots&\vdots\\ p(s_n|s_1)&p(s_n|s_2)&\cdots&p(s_n|s_n) \end{bmatrix} \begin{bmatrix} v_\pi(s_1)\\ v_\pi(s_2)\\ \vdots\\ v_\pi(s_n) \end{bmatrix}$
其中这个方阵称为状态转移矩阵 P，整个公式可以写成 $v_\pi=r_\pi+\gamma P v_\pi$
可以写出解析解为 $v_\pi=(I-\gamma P)^{-1} r_\pi$
为了减少运算量，在实际中不求逆，而是求迭代解 $v_{k+1}=r_\pi+\gamma P v_k（k=0,1,2,\cdots）$ 。可以证明当 $k\to\infty$ ， $v_{k+1} \to v_\pi$