关于马尔科夫决策过程的一点不理解的地方

本文探讨了马尔可夫决策过程(MDP)的概念及其组成要素,对比了不同文献中对于MDP定义的差异,并介绍了马尔可夫模型的不同子模型,包括马尔可夫链、隐马尔可夫模型及不完全可观察马尔可夫决策过程。


参考Puterman的书:Markov Decision Process 里面说马尔科夫是五元组,分别是状态空间,行动空间,决策时刻,回报函数和转移概率矩阵。

但是这篇文章https://www.cnblogs.com/jinxulin/p/3517377.html

认为是四元组。

还在其他论文和网页里看到五元组但元素和Puterman不一致的,比如这里:http://blog.youkuaiyun.com/gxsia/article/details/61928369,

http://blog.youkuaiyun.com/qiusuoxiaozi/article/details/50830175

增加了折扣因子作为累积回报。

感到很困惑,我觉得Puterman是对的。

1. 马尔可夫模型的几类子模型

大家应该还记得马尔科夫链(Markov Chain),了解机器学习的也都知道隐马尔可夫模型(Hidden Markov Model,HMM)。它们具有的一个共同性质就是马尔可夫性(无后效性),也就是指系统的下个状态只与当前状态信息有关,而与更早之前的状态无关。

马尔可夫决策过程(Markov Decision Process, MDP)也具有马尔可夫性,与上面不同的是MDP考虑了动作,即系统下个状态不仅和当前的状态有关,也和当前采取的动作有关。还是举下棋的例子,当我们在某个局面(状态s)走了一步(动作a),这时对手的选择(导致下个状态s’)我们是不能确定的,但是他的选择只和s和a有关,而不用考虑更早之前的状态和动作,即s’是根据s和a随机生成的。

我们用一个二维表格表示一下,各种马尔可夫子模型的关系就很清楚了:

 不考虑动作考虑动作
状态完全可见马尔科夫链(MC)马尔可夫决策过程(MDP)
状态不完全可见隐马尔可夫模型(HMM)不完全可观察马尔可夫决策过程(POMDP)

2. 马尔可夫决策过程

一个马尔可夫决策过程由一个四元组构成M = (S, A, Psa,

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值