马尔科夫决策过程（Markov Decision Process）揭秘

最新推荐文章于 2025-10-14 20:07:52 发布

原创

最新推荐文章于 2025-10-14 20:07:52 发布 · 1.6k 阅读

18 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #人工智能 #深度学习 #动态规划

本文详细介绍了马尔科夫决策过程(MDP)及其在强化学习中的应用，包括MDP的基本框架、状态转移、奖励函数、值函数（包括折扣求和和贝尔曼方程）、策略评估和策略迭代/值迭代的区别与过程。

RL基本框架、MDP概念

MDP是强化学习的基础。MDP能建模一系列真实世界的问题，它在形式上描述了强化学习的框架。RL的交互过程就是通过MDP表示的。RL中Agent对Environment做出一个动作（Action），Environment给Agent一个反馈（Reward），同时Agent从原状态（ $S_{t}$ ）变为新状态（ $S_{t+1}$ ）。这里的反馈可以是正、负反馈；Agent执行动作是根据某个策略（Policy）进行的。

可以看到，强化学习和传统机器学习的区别是，它不能立即得到标记，而只能得到一个暂时的反馈（多为人为经验设定）。因此可以说强化学习是一种标记延迟的监督学习。

思考：MDP中，Environment是全部可观测的，部分可观测问题也能转化为MDP，如何理解？

Markov Property

假设状态的历史序列： $h_{t}$ ={ $s_{1}$ , $s_{2}$ , ... $s_{t}$ }，状态 $s_{t}$ 具有马尔科夫性，当且仅当

p( $s_{t+1}$ | $s_{t}$ )=p( $s_{t+1}$ | $h_{t}$ )，即“当给定现在(present)，未来(future)独立于过去(past)”。

换言之，马尔科夫性是指不具备记忆特质。未来的状态与任何历史的状态无关，仅与当前状态相关。

Markov Chain

马尔科夫链(Markov Chain)和马尔科夫过程(Markov Process)基本等价。（具备离散状态的马尔可夫过程，通常被称为马尔可夫链）。例如下图中有4个状态，箭头表示状态转移，数字表示转移概率。从一个节点出发的概率之和为1.

我们将状态转移矩阵用P表示，其中每个元素为p( $s_{t+1}$ = $s_{}^{'}$ | $s_{t}$ = $s$ )：

同样P的每一行之和为1.举一个具体例子：

上图的马尔科夫过程(MP)有7个状态，图中标出了每个状态去相邻状态或保留原地的概率。从 $s_{3}$ 出发的采样转移结果可能为：1) $s_{3}$ ， $s_{4}$ ， $s_{5}$ ， $s_{6}$ ， $s_{6}$ 2) $s_{3}$ ， $s_{2}$ ， $s_{3}$ ， $s_{2}$ ， $s_{1}$ 3) $s_{3}$ ， $s_{4}$ ， $s_{4}$ ， $s_{5}$ ， $s_{5}$ 等等，可以说马尔科夫过程（Markov process）是一个具备了马尔科夫性质的随机过程。