欢迎去各大电商平台选购纸质版蘑菇书《Easy RL:强化学习教程》
文章是根据 蘑菇书EasyRL ,网络查找资料和汇总,以及新版本的python编写的可运行代码和示例,包含了一些自己对书内容的简单理解
一、 马尔可夫性质
在随机过程中,马尔可夫性质(Markov property)是指一个随机过程在给定现在状态及所有过去状态情况下,其未来状态的条件概率分布仅依赖于当前状态。
举个例子:
明天的天气(是否下大雨)仅与今天的天气(是否刮大风)有关,而与前天及以前的天气无关
我今天醒来花呗剩余额度只和我昨天的额度及昨天的消费情况有关,跟历史数据没有关系。
The future is independent of the past given the present
未来独立于过去,只基于当下。
过去所有的信息都已经被保存到了现在的状态,基于现在就可以预测未来。
如果某一个过程满足马尔可夫性质,那么未来的转移与过去的是独立的,它只取决于现在。马尔可夫性质是所有马尔可夫过程的基础。
二、随机过程 :原文地址:https://zhuanlan.zhihu.com/p/448575579
马尔可夫链是随机过程 这门课程中的一部分,先来简单了解一下。
随机过程就是使用统计模型一些事物的过程进行预测和处理 ,比如股价预测通过今天股票的涨跌,却预测明天后天股票的涨跌;天气预报通过今天是否下雨,预测明天后天是否下雨。
这些过程都是可以通过数学公式进行量化计算的。通过下雨、股票涨跌的概率,用公式就可以推导出来 N 天后的状况。
天气预报通过今天是否下雨,预测明天后天是否下雨(的概率):

股价预测通过今天股票的涨跌,却预测明天后天股票的涨跌(的概率);

这个马尔可夫链是表示股市模型的,共有三种状态:牛市(Bull market), 熊市(Bear market)和横盘(Stagnant market)。每一个状态都以一定的概率转化到下一个状态。比如,牛市以0.025的概率转化到横盘的状态。
这个状态概率转化图可以以矩阵的形式表示。如果我们定义矩阵P某一位置 P ( i , j ) P(i,j) P(i,j)的值为 P ( i ∣ j ) P(i|j) P(i∣j) ,即从状态i转化到状态j的概率,并定义牛市为状态0, 熊市为状态1, 横盘为状态2。
这样我们得到了马尔科夫链模型的状态转移矩阵为:
P = ( 0.9 0.075 0.025 0.15 0.8 0.05 0.25 0.25 0.5 ) \begin{equation} %开始数学环境 P=\left( %左括号 \begin{array}{ccc} %该矩阵一共3列,每一列都居中放置 0.9 & 0.075 & 0.025\\ %第一行元素 0.15 & 0.8 & 0.05\\ %第二行元素 0.25 & 0.25 & 0.5\\ %第三行元素 \end{array} \right) %右括号 \end{equation} P= 0.90.150.250.0750.80.250.0250.050.5
三、马尔科夫链
马尔可夫过程是一组具有马尔可夫性质的随机变量序列 s1,s2……,其中下一个时刻的状态s(t+1)只取决于s(t),也就是上一时刻的状态(可以理解成:过去所有的信息都已经被保存到了现在的状态,基于现在就可以预测未来。)
从当前 s(t), 转移到 s(t+1),它是直接就等于它之前所有的状态转移到 s(t+1)。
离散时间的马尔可夫过程也称为马尔可夫链(Markov chain)
马尔可夫链是最简单的马尔可夫过程,其状态是有限的,
例如,下图里,有4个状态,这4个状态在 S1,S2,S3,S4之间互相转移
S1有0.1的概率留在S1, 0.2的概率去S2, 0.7的概率去S4
S2只能转移到S1
S3只能转移到S2
S4有0.5概率留在S4, 0.2概率转移到S3,0.3概率转移到S2

我们可以用状态转移矩阵(state transition matrix)P来描述状态转移的关系,
也就是从
S1->S1,S1->S2,S1->S3,S1->S4
S2->S1,S2->S2,S2->S3,S2->S4
S3->S1,S3->S2,S3->S3,S3->S4
S4->S1,S4->S2,S4->S3,S4->S4
带入图中的例子得到状态转移矩阵
S1->S1(0.1),S1->S2(0.2),S1->S3(0.0),S1->S4(0.7)
S2->S1(1.0),S2->S2(0.0),S2->S3(0.0),S2->S4(0.0)
S3->S1(0.0),S3->S2(1.0),S3->S3(0.0),S3->S4(0.0)
S4->S1(0.0),S4->S2(0.3),S4->S3(0.2),S4->S4(0.5)
它的每一行描述的是从一个节点到达所有其他节点的概率。
四、马尔可夫过程的例子

上图所示为一个马尔可夫过程的例子,这里有七个状态。
比如从 s 1 s_1 s1 开始,它有0.4的概率到 s 2 s_2 s2 ,有 0.6 的概率留在当前的状态。
s 2 s_2 s2 有 0.4 的概率到 s 1 s_1 s1,有 0.4 的概率到 s 3 s_3 s3 ,另外有 0.2 的概率留在当前状态。
所以给定状态转移的马尔可夫链后,我们可以对这个链进行采样,这样就会得到一串轨迹。
例如,假设我们从状态 s 3 s_3 s3 开始,可以得到3个轨迹:
- s 3 , s 4 , s 5 , s 6 , s 6 s_3, s_4, s_5, s_6, s_6 s3,s4,s5,s6,s6;( s 6 还可以去 s 7 , s 7 又可以回到 s 6 ,有很多的路径 s_6还可以去s_7,s_7又可以回到s_6,有很多的路径 s6还可以去s7,s7又可以回到s

最低0.47元/天 解锁文章
3192

被折叠的 条评论
为什么被折叠?



