强化学习理论——马尔科夫决策过程(MDP)

本文深入解析强化学习核心——马尔科夫决策过程(MDP),阐述智能体如何通过动作与环境互动,追求最优策略及累积回报。涵盖状态转移、策略评估、贝尔曼方程等关键概念。

强化学习——马尔科夫决策过程(MDP)

1、MDP引入

1.1、强化学习引入

对于强化学习而言,其有几个基本的组成部件:

  1. 环境:所谓的环境,就是指我们用于强化学习的数据。
  2. 智能体:无论是任何的学习方式,我们都可以将其抽象成一个模型在寻找最佳参数的过程,在强化学习中,我们将模型抽象成一个“有思想的智能体”。模型学习最佳参数的过程可以抽象成一个智能体在寻找最优回报的过程。
  3. 动作:在强化学习中,智能体与环境之间的交互称为“动作”。
  4. 回报:强化学习的目标就是寻找一个最优回报,我们可以将回报类比成其他学习中的误差,只不过其他学习的过程的目标是最小化误差,而强化学习的过程需要最大化这种“误差”。
  5. 状态:智能体在不断的探索的过程中,每一个时刻会处于一个“状态”。

总结一下,所谓的强化学习,就是指智能体采用某种动作和环境进行交互,进而环境会给予智能体一个回报来引起智能体的状态发生改变。通过不断的迭代过程,为智能体选择一个最优回报的过程。我们用图来总结下这个过程:

在这里插入图片描述

1.2 马尔科夫决策过程引入

在了解了强化学习的基本组件和学习过程之后,我们可以发现,强化学习的基本方式和有监督、无监督学习还是由很大的差别的。对于有、无监督的学习过程,有很多的模型框架来支持这两种学习方式的。比如SVM,K-means等等。那么是否有一个基本的框架来支持强化学习的过程呢?这就引出了我们下面要介绍的MDP决策过程。

在介绍MDP之前,让我们一起来回顾一下有关于马尔科夫的相关概念。

  1. 马尔科夫性
    所谓的马尔科夫性是指状态序列的下一个状态仅仅和前一个状态相关。我们用公式来表示一下就是:
    P(St+1∣S1,S2,S3,...St)=P(St+1∣St)P(S_{t+1}|S_1,S_2,S_3,...S_{t})=P(S_{t+1}|S_t)P(St+1S1,S2,S3,...St)=P(St+1St)

  2. 马尔科夫过程
    马尔科夫过程由一个二元组(S,P)所构成,其中S表示的所有的状态集合,P表示的状态之间的转移的概率矩阵。具体的来说,马尔科夫过程是一个随机的过程,在给定状态转移概率的前提之后,我们可有根据状态转移的概率来获得多个状态转移的序列,每一个序列称为是一个马尔科夫链。我们下面举一个例子来说明一下:
    在这里插入图片描述
    根据上图所示,我们可以获知到的状态的集合为S={娱乐,课1,课2,课3,论文,睡觉,考过},共有七种状态。同时,根据边上的状态转移概率,我们可以总结出概率矩阵P。
    进一步,假设我们以课1为开始状态,则可以产生的马尔科夫链包括:
    课1->课2->睡觉
    课1->课2->课3->考过
    等等。

1.3 MDP介绍

在基本了解了马尔科夫的相关特性和马尔科夫过程之后,我们进一步来介绍MDP过程。对于一个马尔科夫决策过程而言,其一共包含以下几个组件。

  1. S:有限状态集合
  2. A:有限动作集合
  3. P:状态转移的概率矩阵。
  4. R:回报函数
  5. γ:折扣因子,用来计算累积回报。

在我们之前计算的马尔科夫过程中,整个过程是通过状态转移转移的概率和状态的集合来生成状态序列。而在MDP中,我们需要考虑的不仅仅包括状态和转移概率,还考虑了状态所采取的动作。也就是说,在MDP中,状态的转移是根据前一个状态和前一个状态所采用的动作两个部分共同决定的。用公式表示就是:

Pssa=P(St+1∣St=s,At=a)P_{ss}^a=P(S_{t+1}|S_t=s,A_t=a)Pssa=P(St+1St=s,At=a)

在理解了MDP的转移过程之后,我们下面以一个例子来说明一下这种状态转移的过程。

在这里插入图片描述
根据上图所示,我们可以抽象出相关MDP的基本元素包括:

S={ S1,S2,S3,S4,S5}S=\{S_1,S_2,S_3,S_4,S_5\}S={ S1,S2,S3,S4,S5}
A={ 玩,退出,学习,睡觉,发表}A=\{玩,退出,学习,睡觉,发表\}A={ 退}
回报函数R。回报函数R。R
状态转移概率矩阵P。状态转移概率矩阵P。P
这里关于折扣因子γ可以在计算的过程中定义即可。这里关于折扣因子γ可以在计算的过程中定义即可。γ

1.4 策略π

当使用MDP来描述强化学习的时候,强化学习的目标是在给定一个MDP的基础上寻找最优的:策略。那么什么是策略呢?

所谓的“策略”,指的是在给定一个状态S之后,在这个状态S上能产生的动作集的一个分布。策略通常采用π来表示。那我们上面描述的例子来说,当处于状态S3S_3S3的时候,其能够采用的动作包括“睡觉”和“学习”两种,而策略π就可以描述这两个动作的概率分布。用公式来描述就是:

π(a∣s)=P(At=a∣St=s)π(a|s)=P(A_t=a|S_t=s)π(as)=P(At=aSt=s)

1.5 累积回报与状态—值函数

在1.4中我们提到了,强化学习在MDP上的目标是为了寻找一个最优的策略,那么如何来衡量策略的最优性呢?这就引出来我们下面要介绍的“累积回报”。

假设我们给定当前状态StS_tSt和一个策略π,我们可以计算关于策略π的累积回报来对于策略π进行评价。

首先,我们定义累积回报的基本形式:
Gt=Rt+1+γRt+2+γ2Rt+3+,...=∑k=0∞γkRt+k+1G_t=R_{t+1}+γR_{t+2}+γ^2R_{t+3}+,...=∑_{k=0}^∞γ^kR_{t+k+1}Gt=Rt+1+γRt+2+γ2Rt+3+,...=k=0γkRt+k+1
我们来简单的理解一下这个公式,在当前状态StS_tSt下,随着动作的不断发生,智能体不断的和环境产生交互,不断的从从环境中获取到环境的回报值。利用折扣因子γ,对于之后每一个时刻的回报值进行调节,并将调节之后的回报值进行累加。最终获取到回报的累加和。我们利用举一个例子来说明一下:

假设从状态S1S_1S1开始,其可能生成的状态序列包括:
S1−>S2−>S3−>S4S_1->S_2->S_3->S_4S1>S

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值