马尔科夫决策过程(Markov Decision Process)揭秘

本文详细介绍了马尔科夫决策过程(MDP)及其在强化学习中的应用,包括MDP的基本框架、状态转移、奖励函数、值函数(包括折扣求和和贝尔曼方程)、策略评估和策略迭代/值迭代的区别与过程。
RL基本框架、MDP概念

MDP是强化学习的基础。MDP能建模一系列真实世界的问题,它在形式上描述了强化学习的框架。RL的交互过程就是通过MDP表示的。RL中Agent对Environment做出一个动作(Action),Environment给Agent一个反馈(Reward),同时Agent从原状态(S_{t})变为新状态(S_{t+1})。这里的反馈可以是正、负反馈;Agent执行动作是根据某个策略(Policy)进行的。

可以看到,强化学习和传统机器学习的区别是 , 它不能立即得到标记,而只能得到一个暂时的反馈(多为人为经验设定)。因此可以说强化学习是一种标记延迟的监督学习 。

思考:MDP中,Environment是全部可观测的,部分可观测问题也能转化为MDP,如何理解?

Markov Property

假设状态的历史序列:h_{t}={ s_{1}, s_{2}, ... s_{t}},状态s_{t}具有马尔科夫性,当且仅当

p(s_{t+1}|s_{t})=p(s_{t+1}|h_{t}),即“当给定现在(present),未来(future)独立于过去(past)”。

换言之,马尔科夫性是指不具备记忆特质。未来的状态与任何历史的状态无关,仅与当前状态相关。

Markov Chain

马尔科夫链(Markov Chain)和马尔科夫过程(Markov Process)基本等价。(具备离散状态的马尔可夫过程,通常被称为马尔可夫链)。例如下图中有4个状态,箭头表示状态转移,数字表示转移概率。从一个节点出发的概率之和为1.

我们将状态转移矩阵用P表示,其中每个元素为p(s_{t+1}=s_{}^{'}|s_{t}=s):

同样P的每一行之和为1.举一个具体例子

上图的马尔科夫过程(MP)有7个状态,图中标出了每个状态去相邻状态或保留原地的概率。从s_{3}出发的采样转移结果可能为:1) s_{3}s_{4}s_{5}s_{6}s_{6}  2) s_{3}s_{2}s_{3}s_{2}s_{1} 3) s_{3}s_{4}s_{4}s_{5}s_{5}等等,可以说马尔科夫过程(Markov process)是一个具备了马尔科夫性质随机过程

马尔科夫奖励过程(MRP)

MRP等于Markov Chain加上奖励,即MRP=Markov Chain+Reward。其中奖励函数(Reward function)是关键,R(s_{t}=s)=E[r_{t}|

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值