强化学习（二）- 马尔可夫决策过程

bymaymay

已于 2022-03-04 19:31:35 修改

阅读量560

点赞数

分类专栏：强化学习文章标签： python

于 2022-03-04 16:39:25 首次发布

本文链接：https://blog.youkuaiyun.com/bymaymay/article/details/123279100

版权

本文详细介绍了马尔可夫决策过程（MDP），包括其定义、五元组构成、贝尔曼方程及其在强化学习中的应用。通过举例说明了状态值函数与状态-行动值函数的关系，以及如何利用贝尔曼方程进行值函数的计算。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

马尔可夫决策过程

在可完全观测的情况下，系统环境与智能体之间的交互过程是，智能体根据观察到的环境状态 $S_t\in S$ ，从可行的动作集 $A$ 中选择一个动作 $A_t$ 作出决策，系统根据其状态转移概率矩阵 $\bm{P}$ 转移到新状态 $S_{t+1}$ ，并针对智能体的行动 $A_t$ 给出相应的奖励 $R_{t+1}$ ，智能体根据新观察到的状态 $S_{t+1}$ 重新进行下一步的动作 $A_{t+1}$ 。

强化学习过程是解决序贯决策问题，可由马尔可夫决策过程完全刻画。马尔可夫决策过程的历史记录是由一系列的状态、行动和奖励所组成的时间序列

$\{S_1,A_1,R_2,\cdots,S_{t-1},A_{t-1},R_t,\cdots\}$

按照本书的约定，针对行动 $A_t$ 的即时奖励记为 $R_{t+1}$ ，长期回报记为 $G_t$ 。

马尔可夫决策过程可以由一个五元组 $~(S,A,\bm{P},R,\gamma)~$ 表示，其中

(1) $S$ ，是一组有限的状态集合， $S=\{s_1,s_2,\cdots\}$ 。

(2) $A$ ，是一组有限的行动集合， $A=\{a_1,a_2,\cdots\}$ 。

(3) $\bm{P}$ ，是状态转移概率矩阵， $p_{ss'}^a=P\{S_{t+1}=s'|S_t=s,A_t=a\}$ 。

(4) $R$ ，是奖励函数， $R_s^a=E[R_{t+1}|S_t=s,A_t=a]$ 。

(5) $\gamma$ ，是折现因子， $\gamma\in[0,1]$ 。

贝尔曼方程

策略是智能体在观察环境后产生的行动方案，马尔可夫决策过程采取的是随机性策略。具体地，策略描述了智能体采取不同行动的概率，即给定一个状态 $s$ ，智能体采取行动 $a$ 的概率为:
$\pi(a|s) = P\{A_t=a|S_t=s\}$

值函数是针对状态或行动的评价函数值函数，包括状态值函数和状态-行动值函数。

状态值函数 $~v_\pi(s)~$ 是在给定策略 $~\pi~$ 下，用于评价状态 $s$ 的指标。具体地，状态值函数 $~v_\pi(s)$ 定义为：采用策略 $~\pi$ ，状态 $s$ 获得的期望回报，即： $v_\pi(s)\doteq E_\pi [G_t|S_t=s]$ 。

状态-行动值函数 $~q_\pi(s,a)~$ 是在给定策略 $~\pi~$ 下，用于评价状态 $s$ 下动作 $a$ 的指标。具体地，状态-行动值函数 $~q_\pi(s,a)~$ 定义为，采用策略 $~\pi$ ，在状态 $s$ 下采用动作 $a$ 获得的期望回报，即： $q_\pi(s,a)\doteq E_\pi[G_t|S_t=s,A_t=a]$ 。