【强化学习-蘑菇书-3】马尔可夫性质,马尔可夫链,马尔可夫过程,马尔可夫奖励过程,如何计算马尔可夫奖励过程里面的价值

欢迎去各大电商平台选购纸质版蘑菇书《Easy RL:强化学习教程》

文章是根据 蘑菇书EasyRL ,网络查找资料和汇总,以及新版本的python编写的可运行代码和示例,包含了一些自己对书内容的简单理解

一、 马尔可夫性质

在随机过程中,马尔可夫性质(Markov property)是指一个随机过程在给定现在状态及所有过去状态情况下,其未来状态的条件概率分布仅依赖于当前状态。

举个例子

明天的天气(是否下大雨)仅与今天的天气(是否刮大风)有关,而与前天及以前的天气无关

我今天醒来花呗剩余额度只和我昨天的额度及昨天的消费情况有关,跟历史数据没有关系。

The future is independent of the past given the present
未来独立于过去,只基于当下。

过去所有的信息都已经被保存到了现在的状态,基于现在就可以预测未来。

如果某一个过程满足马尔可夫性质,那么未来的转移与过去的是独立的,它只取决于现在。马尔可夫性质是所有马尔可夫过程的基础。

二、随机过程 :原文地址:https://zhuanlan.zhihu.com/p/448575579

马尔可夫链是随机过程 这门课程中的一部分,先来简单了解一下。

随机过程就是使用统计模型一些事物的过程进行预测和处理 ,比如股价预测通过今天股票的涨跌,却预测明天后天股票的涨跌;天气预报通过今天是否下雨,预测明天后天是否下雨。

这些过程都是可以通过数学公式进行量化计算的。通过下雨、股票涨跌的概率,用公式就可以推导出来 N 天后的状况。

天气预报通过今天是否下雨,预测明天后天是否下雨(的概率):
在这里插入图片描述
股价预测通过今天股票的涨跌,却预测明天后天股票的涨跌(的概率);

在这里插入图片描述

这个马尔可夫链是表示股市模型的,共有三种状态:牛市(Bull market), 熊市(Bear market)和横盘(Stagnant market)。每一个状态都以一定的概率转化到下一个状态。比如,牛市以0.025的概率转化到横盘的状态。

这个状态概率转化图可以以矩阵的形式表示。如果我们定义矩阵P某一位置 P ( i , j ) P(i,j) P(i,j)的值为 P ( i ∣ j ) P(i|j) P(ij) ,即从状态i转化到状态j的概率,并定义牛市为状态0, 熊市为状态1, 横盘为状态2。

这样我们得到了马尔科夫链模型的状态转移矩阵为:

P = ( 0.9 0.075 0.025 0.15 0.8 0.05 0.25 0.25 0.5 ) \begin{equation} %开始数学环境 P=\left( %左括号 \begin{array}{ccc} %该矩阵一共3列,每一列都居中放置 0.9 & 0.075 & 0.025\\ %第一行元素 0.15 & 0.8 & 0.05\\ %第二行元素 0.25 & 0.25 & 0.5\\ %第三行元素 \end{array} \right) %右括号 \end{equation} P= 0.90.150.250.0750.80.250.0250.050.5

三、马尔科夫链

马尔可夫过程是一组具有马尔可夫性质的随机变量序列 s1,s2……,其中下一个时刻的状态s(t+1)只取决于s(t),也就是上一时刻的状态(可以理解成:过去所有的信息都已经被保存到了现在的状态,基于现在就可以预测未来。)

从当前 s(t), 转移到 s(t+1),它是直接就等于它之前所有的状态转移到 s(t+1)。

离散时间的马尔可夫过程也称为马尔可夫链(Markov chain)

​马尔可夫链是最简单的马尔可夫过程,其状态是有限的,

例如,下图里,有4个状态,这4个状态在 S1,S2,S3,S4之间互相转移

S1有0.1的概率留在S1, 0.2的概率去S2, 0.7的概率去S4
S2只能转移到S1
S3只能转移到S2
S4有0.5概率留在S4, 0.2概率转移到S3,0.3概率转移到S2
在这里插入图片描述
我们可以用状态转移矩阵(state transition matrix)P来描述状态转移的关系,
也就是从
S1->S1,S1->S2,S1->S3,S1->S4
S2->S1,S2->S2,S2->S3,S2->S4
S3->S1,S3->S2,S3->S3,S3->S4
S4->S1,S4->S2,S4->S3,S4->S4

带入图中的例子得到状态转移矩阵

S1->S1(0.1),S1->S2(0.2),S1->S3(0.0),S1->S4(0.7
S2->S1(1.0),S2->S2(0.0),S2->S3(0.0),S2->S4(0.0
S3->S1(0.0),S3->S2(1.0),S3->S3(0.0),S3->S4(0.0
S4->S1(0.0),S4->S2(0.3),S4->S3(0.2),S4->S4(0.5

它的每一行描述的是从一个节点到达所有其他节点概率

四、马尔可夫过程的例子

在这里插入图片描述
上图所示为一个马尔可夫过程的例子,这里有七个状态。

比如从 s 1 s_1 s1 开始,它有0.4的概率到 s 2 s_2 s2 ,有 0.6 的概率留在当前的状态。
s 2 s_2 s2 有 0.4 的概率到 s 1 s_1 s1,有 0.4 的概率到 s 3 s_3 s3 ,另外有 0.2 的概率留在当前状态。

所以给定状态转移的马尔可夫链后,我们可以对这个链进行采样,这样就会得到一串轨迹。

例如,假设我们从状态 s 3 s_3 s3 开始,可以得到3个轨迹:

  • s 3 , s 4 , s 5 , s 6 , s 6 s_3, s_4, s_5, s_6, s_6 s3,s4,s5,s6,s6;( s 6 还可以去 s 7 , s 7 又可以回到 s 6 ,有很多的路径 s_6还可以去s_7,s_7又可以回到s_6,有很多的路径 s6还可以去s7,s7又可以回到s
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值