【强化学习】CH2 马尔科夫决策过程

亲爱的玛莎拉蒂

已于 2022-09-30 16:42:07 修改

阅读量1k

点赞数

分类专栏：强化学习文章标签：算法

于 2022-09-16 17:22:09 首次发布

本文链接：https://blog.youkuaiyun.com/yuyueyuer/article/details/126894451

版权

强化学习专栏收录该内容

7 篇文章

订阅专栏

本文深入介绍了马尔科夫过程、马尔科夫奖励过程及其在决策过程中的应用。讨论了状态转移概率、奖励函数、折扣因子的概念，并详细阐述了值函数与贝尔曼方程。最后，引入了策略在马尔科夫决策过程中的作用，探讨了带有策略的马尔科夫决策过程及其相关计算公式。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

CH2 马尔科夫决策过程（Markov Decision Processes）

文章目录

CH2 马尔科夫决策过程（Markov Decision Processes）

1 马尔科夫过程（Markov Processes)

马尔科夫决策过程描述的是完全可知的环境。

1.1 马尔科夫的性质

1️⃣状态转移概率与状态转移矩阵

马尔科夫过程的当前状态完全可描述此过程，其满足：

$P[S_{t+1}|S_{t}]=P[S_{t+1}|S_1,...,S_t]$

$S_t$ :t时刻处于状态S

状态转移概率（the state transition probability）：t时刻位于状态S，而（t+1)时刻位于状态s’的概率

$P_{ss'}=P[S_{t+1}=s'|S_t=s]$

状态转移矩阵(State transition matrix):

在这里插入图片描述

注意： $\sum_{j}P_{ij}=1$

1.2 马尔科夫链（无记忆过程）

马尔科夫过程可描述为二元组<状态，状态转移矩阵>，表示为 $< S, P >$

2 马尔科夫奖励过程（Markov Reward Processes)

2.1 MRP

马尔科夫奖励过程可表述为四元组<状态，状态转移概率矩阵，奖励函数，折扣因子>，表示为 $<S,P,R,\gamma>$

$S$ :一系列状态
$P$ :状态转移概率矩阵
$R$ :奖励函数（reward function)， $R_s$ 表示状态为 $S_t$ 时的下一时刻（t+1)的奖励 $R_{t+1}$ 的期望（可由人为设定）

$R_s=E[R_{t+1}|S_t=s]$
$\gamma$ ：折扣因子（discount factor) $\gamma \in[0,1]$

2.2 回报（Return）

回报 $G_t$ : 时刻t 往后走的总折扣奖励

$G_t=R_{t+1}+\gamma R_{t+2}+...=\sum_{k=0}^{\infty}\gamma^k R_{t+k+1}$

$\gamma->0$ : 短视（myopic)，回报只与下一时刻的奖励有关
$\gamma->1$ : 远视（far-sighted), 回报与往后每一时刻的奖励均有关
折扣因子 $\gamma$ 的作用：
- 数学计算便利；避免在环形马尔科夫链中出现无限循环；
- 在经济方面，即时奖励比延时奖励更有收益

2.3 值函数(Value Function)

值函数 $v (s)$ : 状态s的长期价值 $v(s)=E[G_t|S_t=s]$

2.4 贝尔曼方程（Bellman equation)

贝尔曼方程：(线性方程)
$R+\gamma Pv\\ v = (1-\gamma P)^{-1}R$

v:值函数 $\gamma$ :折扣因子 $P$ :状态转移概率矩阵 R:状态即时奖励

推导： $v (s)$ 可由下一状态的值函数 $v(S_{t+1})$ 即 $v (s^{'})$ 表示:
$\boldsymbol{v(s)}=E[G_t|S_t=s]\\ =E[R_{t+1}+\gamma R_{t+2}+\gamma^2 R_{t+3}...|S_t=s]\\ =E[R_{t+1}+\gamma (R_{t+2}+\gamma R_{t+3})...|S_t=s]\\ =E[R_{t+1}+\gamma (G_{t+1})|S_t=s]\\ =E[R_{t+1}+\gamma (\boldsymbol{v(S_{t+1})}|S_t=s]$
即可得：
$\boldsymbol{v(s)=R_s+\gamma\sum_{s'\in S}P_{ss'}v(s')}$
即当前状态s的值函数等于该状态的即时奖励 $R_s$ 加上下一可能状态的延时值函数的加权平均。

在这里插入图片描述

注意：s’不止一个！！！

贝尔曼方程求解的复杂度为 $O(n^3)$ ,n为状态数
贝尔曼方程只适合小的MRP
大型MRP推荐方法：动态规划（模型完全已知）、蒙特卡洛估计（模型未知）、TD迭代

3 马尔科夫决策过程（Markov Decision Processes)

3.1 马尔科夫决策过程MDP

马尔科夫决策过程可表述为五元组<状态，动作，状态转移概率矩阵，奖励函数，折扣因子>，表示为 $<S,A,P,R,\gamma>$

$S$ :一系列状态
$A$ :一系列动作
$P$ :状态转移概率矩阵 $P_{ss'}^a$ :状态s经过动作a到达状态s’

$P_{ss'}^a=P[S_{t+1}=s'|S_t=s,A_t=a]$

$R$ :奖励函数（reward function)， $R_s$ 表示状态为 $S_t$ 时的经过动作a到达下一时刻（t+1)的奖励 $R_{t+1}$ 的期望（可由人为设定）

$R_s=E[R_{t+1}|S_t=s,A_t=a]$
$\gamma$ ：折扣因子（discount factor) $

3.2 策略Policy

策略是指在什么状态下执行什么动作，策略与时间无关

策略 $\pi$ : $\pi(a|s)=P[A_t=a|S_t=s]$

3.3 加上策略的MDP

五元组 $<S,A,P^{\pi},R^{\pi},\gamma>$

表示	计算式	含义
$P^{\pi}_{s,s'}$	$P^{\pi}_{s,s'}=\sum_{a\in A}\pi(a\|s)P^{a}_{s,s'}$	策略π的状态转移概率为状态s做动作a的概率*做动作a到状态s’的概率
$R^{\pi}_{s}$	$R^{\pi}_{s}=\sum_{a\in A}\pi(a\|s)R^{a}_{s}$	策略π的奖励为状态s做所有动作到状态s’的奖励的加权平均
$v_{\pi}(s)$	$v_{\pi}(s)=E_{\pi}[G_t\|S_t=s]\\v_{\pi}(s)=E_{\pi}[R_{t+1}+\gamma v_{\pi}(S_{t+1})\|S_t=s]$	策略π的状态价值函数为状态s下做策略π的收益
$q_{\pi}(s,a)$	$q_{\pi}(s,a)=E_{\pi}[G_t\|S_t=s,A_t=a]\\q_{\pi}(s,a)=E_{\pi}[R_{t+1}+\gamma q_{\pi}(S_{t+1},A_{t+1})\|S_t=s,A_t=a)$	状态动作价值函数为状态s下，执行动作a，继续遵循策略π的收益

注意： $v_{\pi}(s)=\sum_{a\in A}\pi(a|s)q_{\pi}(s,a)$

$q_{\pi}(s,a)=R_s^a+\gamma\sum_{s'\in S}P^a_{ss'}v_{\pi}(s')$

在这里插入图片描述

$v_{\pi}(s)=\sum_{a\in A}\pi(a|s)q_{\pi}(s,a)\\ \boldsymbol{v_{\pi}(s)=\sum_{a\in A}\pi(a|s)(R_s^a+\gamma\sum_{s'\in S}P^a_{ss'}v_{\pi}(s'))}$
注意：在状态s下，执行什么动作是不确定的，执行动作a后的状态s‘是不确定的。

在这里插入图片描述

贝尔曼方程：
$v_{\pi} = R^{\pi}+\gamma P^{\pi}v_{\pi}\\ v_{\pi} = (1-\gamma P^{\pi})^{-1}R^{\pi}$

【强化学习】CH2 马尔科夫决策过程

CH2 马尔科夫决策过程（Markov Decision Processes）

文章目录

1 马尔科夫过程（Markov Processes)

1.1 马尔科夫的性质

1.2 马尔科夫链（无记忆过程）

2 马尔科夫奖励过程 （Markov Reward Processes)

2.1 MRP

2.2 回报（Return）

2.3 值函数(Value Function)

2.4 贝尔曼方程（Bellman equation)

3 马尔科夫决策过程（Markov Decision Processes)

3.1 马尔科夫决策过程MDP

3.2 策略Policy

3.3 加上策略的MDP

2 马尔科夫奖励过程（Markov Reward Processes)