强化学习Markov重要公式推导过程

最新推荐文章于 2024-07-08 15:59:42 发布

幻影123！

最新推荐文章于 2024-07-08 15:59:42 发布

阅读量1.2k

点赞数 19

CC 4.0 BY-SA版权

分类专栏：强化学习文章标签：人工智能马尔科夫决策过程强化学习条件概率复杂概率分解基础数学

本文链接：https://blog.youkuaiyun.com/qq_33909788/article/details/134753744

强化学习专栏收录该内容

3 篇文章

订阅专栏

本文围绕Markov决策过程（MDP）展开，它是强化学习基础，具有马尔可夫性质等特点，可用五元组表示。文中介绍了回报、策略、价值函数等概念，推导了动作价值函数和状态价值函数的互相表示及贝尔曼期望方程，还给出不同时刻价值函数的表示方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Markov决策过程（Markov Decision Process，MDP）

Markov过程是一种用于描述决策问题的数学框架，是强化学习的基础。MDP中，决策者面对一系列的状态和动作，每个状态下采取不同的动作会获得不同的奖励，决策者的目标是制定一种策略，使得长期累积的奖励最大化。

MDP具有以下特点：

状态具有马尔可夫性质，即当前状态包含了过去所有状态的信息，未来状态只与当前状态相关，与过去状态无关；
决策者在每个状态下采取的动作会影响下一时刻的状态转移；
在每个状态下采取的动作会获得一个即时奖励，目标是最大化长期累积奖励。

MDP可以用五元组 $(S,A,p,r,γ)(\mathcal{S}, \mathcal{A}, p, r, \gamma)$ 来表示，其中：

$S\mathcal{S}$ 是状态集合；
$A\mathcal{A}$ 是动作集合；
$p (s^{'} ∣ s, a)$ 表示在状态 $s$ 采取动作 $a$ 后转移到状态 $s^{'}$ 的概率；
$r (s, a)$ 表示在状态 $s$ 采取动作 $a$ 后获得的即时奖励；
$γ∈[0,1]\gamma \in [0,1]$ 是折扣因子，用于平衡当前奖励和未来奖励的重要性。

定义在时间 $t\mathrm{t}$ , 从状态 $st=s\mathrm{s}_{\mathrm{t}}=\mathrm{s}$ 和动作 $At=a\mathrm{A}_{\mathrm{t}}=\mathrm{a}$ 跳转到下一状态 $St+1=s′S_{t+1}=s^{\prime}$ 和奖励 $R_{t+1}=r$ 的概率为:
$\operatorname{Pr}\left[S_{t+1}=s^{\prime}, R_{t+1}=r \mid S_t=s, A_t=a\right]$

在MDP中，决策者需要制定一种策略 $π:S→A\pi: \mathcal{S} \rightarrow \mathcal{A}$ ，将每个状态映射到相应的动作。根据策略，可以计算出每个状态的状态值函数 $Vπ(s)V^\pi(s)$ 和动作值函数 $Qπ(s,a)Q^\pi(s,a)$ ，用于评估策略的好坏。同时，还可以使用值迭代、策略迭代等算法，来寻找最优策略，使得长期累积奖励最大化。

对于有限 Markov决策过程, 可以定义函数 $\mathcal{S} \times \mathcal{R} \times \mathcal{S} \times \mathcal{A} \rightarrow[0,1]$ 为 Markov决策过程的动力 (dynamics):
$\mathrm{p}\left(\mathrm{s}^{\prime}, \mathrm{r} \mid \mathrm{s}, \mathrm{a}\right)=\operatorname{Pr}\left[\mathrm{S}_{\mathrm{t}+1}=\mathrm{s}^{\prime} \quad, \mathrm{R}_{\mathrm{t}+1}=\mathrm{r} \mid \mathrm{S}_{\mathrm{t}}=\mathrm{s}, \mathrm{A}_{\mathrm{t}}=\mathrm{a}\right]$
p函数中间的坚线 “ $∣\mid$ ”取材于条件概率中间的坚线。

利用动力的定义, 可以得到以下其他导出量。

状态转移概率（1.1）:
$p\left(s^{\prime} \mid s, a\right)=\operatorname{Pr}\left[S_{t+1}=s^{\prime} \mid S,=s, A=a\right]=\sum_{r \in \mathbb{R}} p\left(s^{\prime}, r \mid s, a\right), \quad s \in \mathcal{S}, a \in \mathcal{A}, s^{\prime} \in \mathcal{S}$
给定 “状态 - 动作” 的期望奖励（1.2）：
$a)=\mathrm{E}\left[R_{t+1} \mid S_{t}=s, A_{t}=a\right]=\sum_{r \in \mathbb{R}} r \sum_{s^{\prime} \in S} p\left(s^{\prime}, r \mid s, a\right), \quad s \in \mathcal{S}, a \in \mathcal{A}$
给定 “状态 - 动作 -下一状态” 的期望奖励（1.3）:
$r\left(s, a, s^{\prime}\right)=\mathrm{E}\left[R_{t+1} \mid S_{t}=s, A_{t}=a, S_{t+1}=s^{\prime}\right]= \sum_{r \in \mathbb{R} } r \frac{p\left(s^{\prime}, r \mid s, a\right)}{p\left(s^{\prime} \mid s, a\right)}, \quad s \in \mathcal{S}, a \in \mathcal{A}, s^{\prime} \in \mathcal{S}$

公式(1.3)推导过程我们可以使用条件概率的公式来推导 $r (s, a, s^{'})$ 的公式。根据条件概率的定义，有： $\mathrm{E}\left[R_{t+1} \mid S_{t}=s, A_{t}=a, S_{t+1}=s^{\prime}\right]=\sum_{r} r \cdot \operatorname{Pr}\left(R_{t+1}=r \mid S_{t}=s, A_{t}=a, S_{t+1}=s^{\prime}\right)$

利用条件概率公式的两种形式
$\mid B) \cdot P(B)$
$\mid B) \cdot P(B)=P(A ， B)$

对下面的概率公式进行转化
$\begin{aligned} & \operatorname{Pr}\left(R_{t+1}=r \mid S_t=S, A_t=a, S_{t+1}=s^{\prime}\right)\\ & =\frac{\operatorname{Pr}\left(R_{t+1}=r, S_t=s, A_t=a, S_{t+1}=s^{\prime}\right)}{\operatorname{Pr}\left(S_t=s, A_t=a, S_{t+1}=s^{\prime}\right)} \\ & =\frac{\operatorname{Pr}\left(\operatorname{R_{t+1}} =r, S_{t+1}=s^{\prime} \mid S_t=s, A_t=a\right) \cdot \operatorname{Pr}\left(S_t=s, A_t=a\right)}{\operatorname{Pr}\left(S_{t+1}=s^{\prime} \mid S_t=s, A_t=a\right) \cdot \operatorname{Pr}\left(S_t=s, A_t=a\right)} \\ & =\frac{\operatorname{Pr}\left(\operatorname{R}_{t+1}=r, S_{t+1}=s^{\prime} \mid S_t=s, A_t=a\right)}{\operatorname{Pr}\left(S_{t+1}=s^{\prime} \mid S_t=s, A_t=a\right)} \end{aligned}$
而根据贝叶斯公式，我们可以将上式中的条件概率转换为联合概率和边缘概率的形式，即：
$\operatorname{Pr}\left(R_{t+1}=r \mid S_{t}=s, A_{t}=a, S_{t+1}=s^{\prime}\right)=\frac{\operatorname{Pr}\left(S_{t+1}=s^{\prime}, R_{t+1}=r \mid S_{t}=s, A_{t}=a\right)}{\operatorname{Pr}\left(S_{t+1}=s^{\prime} \mid S_{t}=s, A_{t}=a\right)}$ 将上式代入前面的式子中，得到： $\mathrm{E}\left[R_{t+1} \mid S_{t}=s, A_{t}=a, S_{t+1}=s^{\prime}\right]=\sum_{r} r \cdot \frac{\operatorname{Pr}\left(S_{t+1}=s^{\prime}, R_{t+1}=r \mid S_{t}=s, A_{t}=a\right)}{\operatorname{Pr}\left(S_{t+1}=s^{\prime} \mid S_{t}=s, A_{t}=a\right)}$ 根据MDP中的状态转移概率 $p (s^{'}, r ∣ s, a)$
和状态转移概率的定义，我们可以将上式中的条件概率表示为 $p (s^{'}, r ∣ s, a)$ 的形式，即： $\operatorname{Pr}\left(S_{t+1}=s^{\prime}, R_{t+1}=r \mid S_{t}=s, A_{t}=a\right)=p\left(s^{\prime}, r \mid s, a\right)$
同样地，根据MDP中的状态转移概率 $p (s^{'} ∣ s, a)$ 和状态转移概率的定义，我们可以将上式中的边缘概率表示为 $p (s^{'} ∣ s, a)$
的形式，即： $\operatorname{Pr}\left(S_{t+1}=s^{\prime} \mid S_{t}=s, A_{t}=a\right)=p\left(s^{\prime} \mid s, a\right)$
将上面两个式子代入前面的式子中，得到：
$\mathrm{E}\left[R_{t+1} \mid S_{t}=s, A_{t}=a, S_{t+1}=s^{\prime}\right]=\sum_{r} r \cdot \frac{p\left(s^{\prime}, r \mid s, a\right)}{p\left(s^{\prime} \mid s, a\right)}, \quad s \in \mathcal{S}, a \in \mathcal{A}, s^{\prime} \in \mathcal{S}$ 这就是
$r (s, a, s^{'})$ 的公式推导过程。

回报

假设某一回合在第 $T$ 步终止，则从 $t (t < T)$ 以后的回报 $G_t$ 定义为未来奖励和：

$G_t = R_{t+1} + R_{t+2} + \cdots + R_T$

引入折扣因子 $γ∈[0,1]\gamma \in [0,1]$ ，则回报 $G_t$ 可以表示为：

$G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \cdots = \sum_{\tau =0}^{+\infty} \gamma^\tau R_{t+\tau+1}$

其中， $R_t$ 表示第 $t$ 步的奖励， $γ\gamma$ 表示折扣因子， $t$ 表示当前步数。

策略

定义策略(policy）为从状态到动作的转移概率
$\pi(a\mid s)=Pr[A_t=a \mid S_t=s],s \in S,a \in A$

价值函数

基于回报的定义，可以进一步定义价值函数 (value function)。对于给定的策略 $π\pi$ , 可以定义以下价值函数。

状态价值函数 (state value function): 状态价值函数 $vπ(s)\mathrm{v}_\pi(\mathrm{s})$ 表示从状态的开始采用策略 $π\pi$ 的预期回报。如下式所示:
$\mathrm{v}_{\mathrm{\pi}}(\mathrm{s})=\mathrm{E}_{\mathrm{\pi}}\left[\mathrm{G}_{\mathrm{t}} \mid \mathrm{S}_{\mathrm{t}}=\mathrm{s}\right]$
动作价值函数 (action value function)：动作价值函数 $s,a)\mathrm{q}_{\pi}(\mathrm{~s}, \mathrm{a})$ 表示在状态 $s\mathrm{s}$ 采取动作 $a\mathrm{a}$ 后，采用策略 $π\pi$ 的预期回报。如下式所示:
$\mathrm{q}_\pi(\mathrm{s}, \mathrm{a})=\mathrm{E}_\pi\left[\mathrm{G}_{\mathrm{t}} \mid \mathrm{S}_{\mathrm{t}}=\mathrm{s}, \mathrm{A}_{\mathrm{t}}=\mathrm{a}\right]$
终止状态 ${s}_{终止}$ 不是一个一般的状态，终止状态后没有动作。为了在数学上有统一的形式, 一般定义 $,a)=0(a∈A)\mathrm{v}_\pi\left(\mathrm{s}_{\text {终止 }}\right)=0, \mathrm{q}_\pi\left(\mathrm{s}_{\text {终止 }}, \mathrm{a}\right)=0 \quad(a \in \mathcal{A})$ 。

动作价值函数和状态价值函数的互相表示以及贝尔曼期望方程

用 $t\mathrm{t}$ 时刻的动作价值函数表示 $t\mathrm{t}$ 时刻的状态价值函数:
$v_\pi(s)=\sum_a \pi(a \mid s) q_{\pi} (s, a), \quad s \in S$
（推导：对任一状态 $\in \mathcal{S}$ , 有
$\begin{aligned} & v_\pi(s)=\mathrm{E}_\pi \left[G_t \mid S_{t}=s\right] \\ & =\sum_g g \operatorname{Pr}\left[G_t=g \mid S_t=s\right] \\ & =\sum_g g \sum_a \operatorname{Pr}\left[G_t=g, A_t=a \mid S_t=s\right] \\ & （对概率部分利用条件概率公式变形，拆成两个概率乘积\\ &= \sum_g g \sum_a \frac{\operatorname{Pr}\left[G_t=g, A_t=a, S_t=s\right]}{\operatorname{Pr}\left[S_t=s\right]} \\ &= \sum_g g \sum_a \frac{\operatorname{Pr}\left[G_t=g \mid A_t=a, S_t=s\right] \cdot \operatorname{Pr}\left[A_t=a, S_t=s\right]}{\operatorname{Pr}\left[S_t=s\right]} \\ & ）\\ & =\sum_g g \sum_a \operatorname{Pr}\left[A_t=a \mid S_t=s\right] \operatorname{Pr}\left[G_t=g \mid S_t=s, A_t=a\right] \\ & =\sum_a \operatorname{Pr}\left[A_t=a \mid S_t=s\right] \sum_g g \operatorname{Pr}\left[G_t=g \mid S_t=s, A_t=a\right] \\ & =\sum_a \operatorname{Pr}\left[A_t=a \mid S_t=s \right] \mathrm{E}_\pi \left[G_t \mid S_t=s, A_t=a\right] \\ & =\sum_a \pi(a \mid s) q_\pi (s, a) \\ & \end{aligned}$
用 $t + 1$ 时刻的状态价值表示 $t$ 时刻的动作价值函数:
$\begin{aligned} q_\pi(s, a) & =r(s, a)+\gamma \sum_{s^{\prime}} p\left(s^{\prime} \mid s, a\right) v_\pi\left(s^{\prime}\right) \\ & =\sum_{s^{\prime},r} p\left(s^{\prime}, r \mid s, a\right)\left[r+\gamma v_\pi \left(s^{\prime}\right)\right], \quad s \in \mathcal{S}, a \in \mathcal{A} \end{aligned}$
（推导：对任意的状态 $\in \mathcal{S}$ 和动作 $\in \mathcal{A}$ , 有
$\begin{aligned} & \mathrm{E}_\pi \left[G_{t+1} \mid S_t=s, A_t=a\right] \\ & =\sum_g g \operatorname{Pr}\left[G_{t+1}=g \mid S_t=S, A_t=a\right] \\ & =\sum_g g \sum_{s^{\prime}} \operatorname{Pr}\left[S_{t+1}=s^{\prime}, G_{t+1}=g \mid S_t=s, A_t=a\right] \\ & =\sum_g g \sum_{s^{\prime}} \frac{\operatorname{Pr} \underline{\left[S_{t+1}=s^{\prime}, G_{t+1}=g, S_t=s, A_t=a\right]}}{\operatorname{Pr} \underline{\left[S_t=S, A_t=a\right] }} \\ & 注意观察划线区域在下面的位置变化 \\ & =\sum_g g \sum_{s^{\prime}} \frac{\operatorname{Pr} \underline{\left[S_{t+1}=s^{\prime}, G_{t+1}=g, S_t=s, A_t=a\right]}}{\operatorname{Pr}\left[S_t=s, A_t=a, S_{t+1}=s^{\prime}\right]} \cdot \frac{ \operatorname{Pr}\left[S_t=s, A_t=a, S_{t+1}=s^{\prime}\right] }{\operatorname{Pr} \underline{\left[S_t=S, A_t=a\right] }} \\ & =\sum_g g \sum_{s^{\prime}} \operatorname{Pr}\left[S_{t+1}=s^{\prime} \mid S_t=s, A_t=a\right] \operatorname{Pr}\left[G_{t+1}=g \mid S_t=s, A_t=a, S_{t+1}=s^{\prime}\right] \\ & 利用Markov性对后面部分进行精简 \\ & =\sum_g g \sum_{s^{\prime}} \operatorname{Pr}\left[S_{t+1}=s^{\prime} \mid S_t=s, A_t=a\right] \operatorname{Pr}\left[G_{t+1}=g \mid S_{t+1}=s^{\prime}\right] \\ & =\sum_{s^{\prime}} \operatorname{Pr}\left[S_{t+1}=s^{\prime} \mid S_t=s, A_t=a\right] \sum_{g} g \operatorname{Pr}\left[G_{t+1}=g \mid S_{t+1}=s^{\prime}\right] \\ & =\sum_{s^{\prime}} \operatorname{Pr}\left[S_{t+1}=s^{\prime} \mid S_t=s, A_t=a\right] \mathrm{E}_\pi\left[G_{t+1} \mid S_{t+1}=s^{\prime}\right] \\ & =\sum_{s^{\prime}} p\left(s^{\prime} \mid s, a\right) v_\pi\left(s^{\prime}\right) \\ & \end{aligned}$

其中 $Pr⁡[Gt+1=g∣St=s,At=a,St+1=s′]=Pr[Gt+1=g∣St+1=s′]\operatorname{Pr}\left[G_{t+1}=g \mid S_t=s, A_t=a, S_{t+1}=s^{\prime} \quad\right]=Pr\left[G_{t+1}=g \mid S_{t+1}=s^{\prime}\right]$ 用到了Markov性。

回忆前面我们定义的
$G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \cdots = \sum_{\tau =0}^{+\infty} \gamma^\tau R_{t+\tau+1}$
观察各项可以发现
$G_{t+1} = R_{t+2} + \gamma R_{t+3} + \gamma^2 R_{t+4} + \cdots =\frac{G_t-R_{t+1}}{\gamma}$
也就是说 $G_{t+1} 和 G_{t}$ 存在递推关系
$G_t =R_{t+1}+\gamma G_{t+1}$

回顾1.2公式

给定 “状态 - 动作” 的期望奖励（1.2）：
$a)=\mathrm{E}\left[R_{t+1} \mid S_{t}=s, A_{t}=a\right]=\sum_{r \in \mathbb{R}} r \sum_{s^{\prime} \in S} p\left(s^{\prime}, r \mid s, a\right), \quad s \in \mathcal{S}, a \in \mathcal{A}$
结合刚刚推导出的 $Eπ[Gt+1∣St=s,At=a]\mathrm{E}_\pi \left[G_{t+1} \mid S_t=s, A_t=a\right]$ 的表达式
利用上式，最终有

$\begin{aligned} q_\pi(s, a) & =\mathrm{E}_\pi\left[G_t \mid S_t=s, A_t=a\right] \\ & =\mathrm{E}_\pi\left[R_{t+1}+\gamma G_{t+1} \mid S_t=s, A_t=a\right] \\ & =\mathrm{E}_\pi\left[R_{t+1} \mid S_t=s, A_t=a\right]+\mathrm{E}_\pi\left[\gamma G_{t+1} \mid S_t=s, A_t=a\right] \\ & =\mathrm{E}_\pi\left[R_{t+1} \mid S_t=s, A_t=a\right]+\gamma \mathrm{E}_\pi\left[G_{t+1} \mid S_t=s, A_t=a\right] \\ & =\sum_{r \in \mathbb{R}} r \sum_{s^{\prime} \in S} p\left(s^{\prime}, r \mid s, a\right)+ \gamma \sum_{s^{\prime}} p\left(s^{\prime} \mid s, a\right) v_\pi\left(s^{\prime}\right) \\ & =\sum_{s^{\prime}, r} p\left(s^{\prime}, r \mid s, a\right)\left[r+\gamma v_\pi \left(s^{\prime}\right)\right] \end{aligned}$
这样就得到了结果

不同时刻价值函数表示

用下一时刻的状态价值函数表示当前时刻的状态价值函数
$\begin{aligned} \nu_\pi & =\sum_a \pi(s \mid a) \cdot q_\pi(s, a) , s \in S \\ \nu_\pi & =\sum_a \pi(s \mid a)\left[r(s, a)+\gamma \sum_{s^\prime} p\left(s^{\prime} \mid s, a\right) \nu_\pi\left(s^{\prime}\right)\right] , s \in S \end{aligned}$
用下一时刻动作价值函数表示当前动作价值函数

$\mathcal{q}_{\pi} (s, a)=\sum_{s^{\prime}, r} p\left(s^{\prime}, r \mid s, a\right)\left[r+\gamma v_\pi \left(s^{\prime}\right)\right] , \quad s \in \mathcal{S}, a \in \mathcal{A} \\ \mathcal{q}_{\pi} (s, a)=\sum_{s^\prime,r} p\left(s^{\prime}, r \mid s, a\right)\left[r+\gamma \sum_{a^{\prime}} \pi\left(a^{\prime} \mid s^{\prime}\right) q_\pi\left(s^{\prime}, a^{\prime}\right)\right], \quad s \in \mathcal{S}, a \in \mathcal{A}$