RL基本框架、MDP概念

MDP是强化学习的基础。MDP能建模一系列真实世界的问题,它在形式上描述了强化学习的框架。RL的交互过程就是通过MDP表示的。RL中Agent对Environment做出一个动作(Action),Environment给Agent一个反馈(Reward),同时Agent从原状态()变为新状态(
)。这里的反馈可以是正、负反馈;Agent执行动作是根据某个策略(Policy)进行的。
可以看到,强化学习和传统机器学习的区别是 , 它不能立即得到标记,而只能得到一个暂时的反馈(多为人为经验设定)。因此可以说强化学习是一种标记延迟的监督学习 。
思考:MDP中,Environment是全部可观测的,部分可观测问题也能转化为MDP,如何理解?
Markov Property
假设状态的历史序列:={
,
, ...
},状态
具有马尔科夫性,当且仅当
p(|
)=p(
|
),即“当给定现在(present),未来(future)独立于过去(past)”。
换言之,马尔科夫性是指不具备记忆特质。未来的状态与任何历史的状态无关,仅与当前状态相关。
Markov Chain
马尔科夫链(Markov Chain)和马尔科夫过程(Markov Process)基本等价。(具备离散状态的马尔可夫过程,通常被称为马尔可夫链)。例如下图中有4个状态,箭头表示状态转移,数字表示转移概率。从一个节点出发的概率之和为1.

我们将状态转移矩阵用P表示,其中每个元素为p(=
|
=
):

同样P的每一行之和为1.举一个具体例子:

上图的马尔科夫过程(MP)有7个状态,图中标出了每个状态去相邻状态或保留原地的概率。从出发的采样转移结果可能为:1)
,
,
,
,
2)
,
,
,
,
3)
,
,
,
,
等等,可以说马尔科夫过程(Markov process)是一个具备了马尔科夫性质的随机过程。
马尔科夫奖励过程(MRP)
MRP等于Markov Chain加上奖励,即MRP=Markov Chain+Reward。其中奖励函数(Reward function)是关键,R(=
)=E[
|

本文详细介绍了马尔科夫决策过程(MDP)及其在强化学习中的应用,包括MDP的基本框架、状态转移、奖励函数、值函数(包括折扣求和和贝尔曼方程)、策略评估和策略迭代/值迭代的区别与过程。
最低0.47元/天 解锁文章
1361

被折叠的 条评论
为什么被折叠?



