强化学习理论——马尔科夫决策过程(MDP)

最新推荐文章于 2025-10-14 20:07:52 发布

原创

最新推荐文章于 2025-10-14 20:07:52 发布 · 3.2k 阅读

26 ·

CC 4.0 BY-SA版权

本文深入解析强化学习核心——马尔科夫决策过程(MDP)，阐述智能体如何通过动作与环境互动，追求最优策略及累积回报。涵盖状态转移、策略评估、贝尔曼方程等关键概念。

强化学习——马尔科夫决策过程(MDP)

1、MDP引入

1.1、强化学习引入

对于强化学习而言，其有几个基本的组成部件：

环境：所谓的环境，就是指我们用于强化学习的数据。
智能体：无论是任何的学习方式，我们都可以将其抽象成一个模型在寻找最佳参数的过程，在强化学习中，我们将模型抽象成一个“有思想的智能体”。模型学习最佳参数的过程可以抽象成一个智能体在寻找最优回报的过程。
动作：在强化学习中，智能体与环境之间的交互称为“动作”。
回报：强化学习的目标就是寻找一个最优回报，我们可以将回报类比成其他学习中的误差，只不过其他学习的过程的目标是最小化误差，而强化学习的过程需要最大化这种“误差”。
状态：智能体在不断的探索的过程中，每一个时刻会处于一个“状态”。

总结一下，所谓的强化学习，就是指智能体采用某种动作和环境进行交互，进而环境会给予智能体一个回报来引起智能体的状态发生改变。通过不断的迭代过程，为智能体选择一个最优回报的过程。我们用图来总结下这个过程：

在这里插入图片描述

1.2 马尔科夫决策过程引入

在了解了强化学习的基本组件和学习过程之后，我们可以发现，强化学习的基本方式和有监督、无监督学习还是由很大的差别的。对于有、无监督的学习过程，有很多的模型框架来支持这两种学习方式的。比如SVM，K-means等等。那么是否有一个基本的框架来支持强化学习的过程呢？这就引出了我们下面要介绍的MDP决策过程。

在介绍MDP之前，让我们一起来回顾一下有关于马尔科夫的相关概念。

马尔科夫性
所谓的马尔科夫性是指状态序列的下一个状态仅仅和前一个状态相关。我们用公式来表示一下就是：
$P(S_{t+1}|S_1,S_2,S_3,...S_{t})=P(S_{t+1}|S_t)$
马尔科夫过程
马尔科夫过程由一个二元组(S,P)所构成，其中S表示的所有的状态集合，P表示的状态之间的转移的概率矩阵。具体的来说，马尔科夫过程是一个随机的过程，在给定状态转移概率的前提之后，我们可有根据状态转移的概率来获得多个状态转移的序列，每一个序列称为是一个马尔科夫链。我们下面举一个例子来说明一下：

根据上图所示，我们可以获知到的状态的集合为S={娱乐，课1，课2，课3，论文，睡觉，考过}，共有七种状态。同时，根据边上的状态转移概率，我们可以总结出概率矩阵P。
进一步，假设我们以课1为开始状态，则可以产生的马尔科夫链包括：
课1->课2->睡觉
课1->课2->课3->考过
等等。

1.3 MDP介绍

在基本了解了马尔科夫的相关特性和马尔科夫过程之后，我们进一步来介绍MDP过程。对于一个马尔科夫决策过程而言，其一共包含以下几个组件。

S：有限状态集合
A：有限动作集合
P：状态转移的概率矩阵。
R：回报函数
γ：折扣因子，用来计算累积回报。

在我们之前计算的马尔科夫过程中，整个过程是通过状态转移转移的概率和状态的集合来生成状态序列。而在MDP中，我们需要考虑的不仅仅包括状态和转移概率，还考虑了状态所采取的动作。也就是说，在MDP中，状态的转移是根据前一个状态和前一个状态所采用的动作两个部分共同决定的。用公式表示就是：

$P_{ss}^a=P(S_{t+1}|S_t=s,A_t=a)$

在理解了MDP的转移过程之后，我们下面以一个例子来说明一下这种状态转移的过程。

在这里插入图片描述
根据上图所示，我们可以抽象出相关MDP的基本元素包括：

$S=\{S_1,S_2,S_3,S_4,S_5\}$
$A=\{玩，退出，学习，睡觉，发表\}$
$回报函数 R 。$
$状态转移概率矩阵 P 。$
$这里关于折扣因子 γ 可以在计算的过程中定义即可。$

1.4 策略π

当使用MDP来描述强化学习的时候，强化学习的目标是在给定一个MDP的基础上寻找最优的：策略。那么什么是策略呢？

所谓的“策略”，指的是在给定一个状态S之后，在这个状态S上能产生的动作集的一个分布。策略通常采用π来表示。那我们上面描述的例子来说，当处于状态 $S_3$ 的时候，其能够采用的动作包括“睡觉”和“学习”两种，而策略π就可以描述这两个动作的概率分布。用公式来描述就是：

$π(a|s)=P(A_t=a|S_t=s)$

1.5 累积回报与状态—值函数

在1.4中我们提到了，强化学习在MDP上的目标是为了寻找一个最优的策略，那么如何来衡量策略的最优性呢？这就引出来我们下面要介绍的“累积回报”。

假设我们给定当前状态 $S_t$ 和一个策略π，我们可以计算关于策略π的累积回报来对于策略π进行评价。

首先，我们定义累积回报的基本形式：
$G_t=R_{t+1}+γR_{t+2}+γ^2R_{t+3}+,...=∑_{k=0}^∞γ^kR_{t+k+1}$
我们来简单的理解一下这个公式，在当前状态 $S_t$ 下，随着动作的不断发生，智能体不断的和环境产生交互，不断的从从环境中获取到环境的回报值。利用折扣因子γ，对于之后每一个时刻的回报值进行调节，并将调节之后的回报值进行累加。最终获取到回报的累加和。我们利用举一个例子来说明一下：