马尔可夫链(Markov chain)

马尔可夫链(Markov chain)是一种在数学建模和机器学习中广泛应用的工具,尤其在NLP中。本文介绍了马尔可夫链的定义、概率转移矩阵及其相关性质,如开普曼-柯尔莫哥洛夫公式,探讨了其在状态转移中的无记忆性质。同时,文章还涉及了马尔可夫链的极限概率分布及其在实际问题中的应用。

马尔可夫链(Markov chain)是数学建模和机器学习常用的工具(据说尤其在NLP中,我目前尚不了解很多,但之前曾看过一篇用简单的马尔可夫链实现一个鸡汤生成器的博文,有兴趣的朋友可以看看)。这篇文章将对它做一个简单的介绍。

以下内容为本人在参考了一些资料后的原创,因此版权属于本人。欢迎转载,但请标明原作者和原链接。

由于内容比较繁多,我将在未来一段时间内完成这篇文章。

另注:根据作者测试,本文在移动端存在一个问题:公式无法显示完全。 解决办法是点击公式,使其出现选择框;长按至出现选项;选择Math Settings 里的 Scale All Math... 将scale调为大概50%,即可显示完全。

如下图所示:

image_1c52vkbaacsv1euj1eqabv61b2rm.png-67.5kB

什么是Markov chain?

定义

维基百科上给出的定义如下:

马尔可夫链(英语:Markov chain),又称离散时间马尔可夫链(discrete-time Markov chain,缩写为DTMC),因俄国数学家安德烈·马尔可夫(俄语:Андрей Андреевич Марков)得名,为状态空间中经过从一个状态到另一个状态的转换的随机过程。该过程要求具备“无记忆”的性质:下一状态的概率分布只能由当前状态决定,在时间序列中它前面的事件均与之无关。这种特定类型的“无记忆性”称作马尔可夫性质。马尔科夫链作为实际过程的统计模型具有许多应用。

而用形式化的语言描述则为:
当等式两边的条件概率都有意义时,

 

P(Xn+m=j |Xn=i,Xn−1=in−1,…X1=i1)=P(Xn+m=j |Xn=i)P(Xn+m=j |Xn=i,Xn−1=in−1,…X1=i1)=P(Xn+m=j |Xn=i)


m=1m=1 时等式成立,则随机变量序列 XnXn 是一个马尔可夫链, XiXi 的可能值构成的可数集称为该链的状态空间(state space)

定义的推论

使用数学归纳法容易证明, 若 m=1m=1时 上式成立,则 mm 为任意正整数都成立。
要完成这个证明,我们先证明这样一个引理:

引理1 P(A|B)=∑P(A|B∩Ci)×P(Ci|B)P(A|B)=∑P(A|B∩Ci)×P(Ci|B)
其中,∑P(Ci)=1∑P(Ci)=1。

证明

 

∑P(A|B∩Ci)×P(Ci|B)=∑P(A∩B∩Ci)P(B∩Ci)×P(Ci|B)=∑P(A∩B∩Ci)P(B)P(Ci|B)×P(Ci|B)=∑P(A∩B∩Ci)P(B)=∑P(A∩B∩Ci)P(B)=P(A∩B)P(B)=P(A|B)∑P(A|B∩Ci)×P(Ci|B)=∑P(A∩B∩Ci)P(B∩Ci)×P(Ci|B)=∑P(A∩B∩Ci)P(B)P(Ci|B)×P(Ci|B)=∑P(A∩B∩Ci)P(B)=∑P(A∩B∩Ci)P(B)=P(A∩B)P(B)=P(A|B)

引理1,我们有:

 

P(Xn+m+1=k |Xn=i,Xn−1=in−1,…X1=i1)=∑k′∈SP(Xn+m+1=k |Xn+m=k′,Xn=i,Xn−1=in−1,…X1=i1)×P(Xn+m=k′ |Xn=i,Xn−1=in−1,…X1=i1)P(Xn+m+1=k |Xn=i,Xn−1=in−1,…X1=i1)=∑k′∈SP(Xn+m+1=k |Xn+m=k′,Xn=i,Xn−1=in−1,…X1=i1)×P(Xn+m=k′ |Xn=i,Xn−1=in−1,…X1=i1)

这里我们已经知道 m=1m=1 时是成立的,那么

 

P(Xn+m+1=k |Xn+m=k′,Xn+m−1=in+m−1,…X1=i1)=P(Xn+m+1=k |Xn+m=k′)=P(Xn+m+1=k |Xn+m=k,Xn=in)P(Xn+m+1=k |Xn+m=k′,Xn+m−1=in+m−1,…X1=i1)=P(Xn+m+1=k |Xn+m=k′)=P(Xn+m+1=k |Xn+m=k,Xn=in)


这个等式成立是因为 Xn+m+1Xn+m+1 只与 Xn+mXn+m 有关,至于我们为什么要引入 Xn=iXn=i,稍后再说。

对于乘号右边的 P(Xn+m=k′ |Xn=i,Xn−1=in−1,…X1=i1)P(Xn+m=k′ |Xn=i,Xn−1=in−1,…X1=i1), 根据归纳假设,有:
P(Xn+m=k′ |Xn=i,Xn−1=in−1,…X1=i1)=P(Xn+m=k′ |Xn=in)P(Xn+m=k′ |Xn=i,Xn−1=in−1,…X1=i1)=P(Xn+m=k′ |Xn=in)

于是,上面的等式可以改写为:

 

P(Xn+m+1=k |Xn+m=k′,Xn+m−1=in+m−1,…X1=i1)=∑k′∈SP(Xn+m+1=k |Xn+m=k′,Xn=in)×P(Xn+m=k′ |Xn=in)P(Xn+m+1=k |Xn+m=k′,Xn+m−1=in+m−1,…X1=i1)=∑k′∈SP(Xn+m+1=k |Xn+m=k′,Xn=in)×P(Xn+m=k′ |Xn=in)

接下来我们证明第二个引理:

引理2: P(A∩B|C)=P(A|B∩C)×P(B|C)P(A∩B|C)=P(A|B∩C)×P(B|C)

证明 :

 

P(A|B∩C)×P(B|C)=P(A∩B∩C)P(B∩C)×P(B∩C)P(C)=P(A∩B∩C)P(C)=P(A∩B|C)P(A|B∩C)×P(B|C)=P(A∩B∩C)P(B∩C)×P(B∩C)P(C)=P(A∩B∩C)P(C)=P(A∩B|C)

写到这里,刚才我们引入 Xn=iXn=i 的目的就很显然了。我们可以将刚才的等式再次改写为:

 

P(Xn+m+1=k |Xn+m=k′,Xn+m−1=in+m−1,…X1=i1)=∑k′∈SP(Xn+m+1=k |Xn+m=k′,Xn=in)×P(Xn+m=k′ |Xn=in)=∑k′∈SP(Xn+m+1=k,Xn+m=k′ |Xn=in)=P(Xn+m+1=k |Xn=in)P(Xn+m+1=k |Xn+m=k′,Xn+m−1=in+m−1,…X1=i1)=∑k′∈SP(Xn+m+1=k |Xn+m=k′,Xn=in)×P(Xn+m=k′ |Xn=in)=∑k′∈SP(Xn+m+1=k,Xn+m=k′ |Xn=in)=P(Xn+m+1=k |Xn=in)

这样,我们证明了,如果m=1m=1等式成立, 当mm为任意正整数时,该等式都成立。

概率转移矩阵

开普曼-柯尔莫哥洛夫公式

刚刚我们分析的正是马尔可夫链的第一个性质:马氏性
接下来我们要讨论另一个性质:时齐性(time-homogeneity)
时齐性是指,系统由状态 ii 到状态 jj 的转移概率只依赖于其时间间隔的长短,与起始时间无关
用形式化的语言描述:

 

P(Xn+m=j |Xn=i)=P(Xn+m+k=j |Xn+k=i)P(Xn+m=j |Xn=i)=P(Xn+m+k=j |Xn+k=i)

既然与起始时间 nn 无关, 那我们就可以将概率 P(Xn+m=j |Xn=i)P(Xn+m=j |Xn=i) 写作 Pij(m)Pij(m) 。

需要注意的是,时齐性是我们的假设,而非能通过数学推导得出的性质。我们做出这个假设是因为它符合我们现实生活中的场景。

对于符合时齐性的马尔可夫链,我们可以定义这样一个概率转移矩阵P(m)P(m):
P(m)P(m) 是以 mm 步转移概率Pij(m)Pij(m)为元素的矩阵(即 (P(m))ij=Pij(m)(P(m))ij=Pij(m),也称为该链的 mm 步转移矩阵。通常记 P(1)P(1) 为 PP。

它具有以下几个性质:

  • ∀i,j∈S,0<Pij(m)<1∀i,j∈S,0<Pij(m)<1 .

  • ∀i,∑j∈SPij(m)=1∀i,∑j∈SPij(m)=1 换句话说, P(m)P(m) 的每一行都是在 SS 上的一个概率分布。

  • P(0)P(0) 是一个单位矩阵。

以上几个性质比较显然,这里就不做更多说明。

这里要重点提到的是开普曼-柯尔莫哥洛夫公式(The Chapman-Kolmogorov Equations)

∀m,n,P(m+n)=P(m)P(n)∀m,n,P(m+n)=P(m)P(n) 亦即,∀m,n,Pij(m+n)=∑k∈SPik(m)Pkj(n)∀m,n,Pij(m+n)=∑k∈SPik(m)Pkj(n)

证明:由引理1

Pij(m+n)=P(Xm+n+1=j |X1=i)=∑k∈SP(Xm+n+1=j|Xm+1=k,X1=i)×P(Xm+1=k |X1=i)=∑k∈SPik(m)Pkj(n)Pij(m+n)=P(Xm+n+1=j |X1=i)=∑k∈SP(Xm+n+1=j|Xm+1=k,X1=i)×P(Xm+1=k |X1=i)=∑k∈SPik(m)Pkj(n)

由此,我们能得到以下两个推论:

推论1: P(n)=P(n−1)P(1)=P(n−2)P(1)2=…P(1)n=PnP(n)=P(n−1)P(1)=P(n−2)P(1)2=…P(1)n=Pn

推论2: 如果我们设初始的概率分布为 P(0)P(0)(行向量), 那么经过了 nn 个步骤后的概率分布 P(n)=P(0)P(n)=P(0)PnP(n)=P(0)P(n)=P(0)Pn

极限概率分布

我们知道,概率分布矩阵的每个元素都属于[0,1][0,1], 那么很自然地,我们就会想知道:

对其求 nn 次幂后得到的 PnPn, 是否有极限呢?

对于有限的随机序列 XnXn, PP 和 PnPn 都是大小有限的方阵。这意味着我们也许可以用单纯的线性代数思想来解决这个问题。

线性代数的角度

纯粹从线性代数的角度来看这个问题,我们的 PP 具有什么性质呢?

  1. 所有元素均为非负数。
  2. 每行元素和为 11。

在这样性质的基础上,下面我们证明:

  1. PP 的任意一个特征值 λλ 满足 |λ|<=1|λ|<=1。
  2. PP 有特征值 11, 且非重根。

证明

  1. 令 λλ 对应的特征向量 x=(x1,x2,...xn)Tx=(x1,x2,...xn)T, 设 xi=max{x1,x2...,xn}xi=max{x1,x2...,xn}。

    由于 Px=λxPx=λx, (Px)i=∑j=1naijxj=λxi(Px)i=∑j=1naijxj=λxi

    两边同时取绝对值,有 |λ||xi|=|∑j=1naijxj|⩽∑j=1naij|xj|⩽(∑j=1naij)|xi|=xi|λ||xi|=|∑j=1naijxj|⩽∑j=1naij|xj|⩽(∑j=1naij)|xi|=xi

    因此 λ⩽1λ⩽1。

  2. 很容易发现 11 是一个特征值,我们只需要取 x=(1,1,..1)Tx=(1,1,..1)T,就可以很容易地发现 Px=xPx=x。

    因此我们需要证明的是 11 不是重根。

    采用反证法

    我们已经知道 11 是一个特征值,如果他是重根的话,那么 det(P−λI)det(P−λI) 中至少有两个 (1−λ)(1−λ) 的因子。

    对于 det(P−λI)det(P−λI) , 我们把每一列的数字累加到第 nn 列,可使第 nn 列全为 (1−λ)(1−λ),这里我们可以提出第一个因子。这时行列式最右一列均为 11, 一个很自然的想法是,前 n−1n−1 行减去第 nn 行:这样第 nn 列就只有一个非零元了。按第 nn 列展开,我们得到 det(P−λI)=(1−λ)det(Q−λI′)det(P−λI)=(1−λ)det(Q−λI′)。其中QQ 为 n−1n−1 阶方阵,且Qij=aij−anjQij=aij−anj;I′I′ 是 n−1n−1 阶单位矩阵。这是很容易验证的。

    这时候 QQ 必有特征值 11.

    接下来我们考虑 QQ 关于 11 的行特征向量(注意是行特征向量,即 QTQT 的列特征向量)β=(β1,β2,..βn−1)β=(β1,β2,..βn−1)。

    我们有

    (βQ)j=∑i=1n−1βi(aij−anj)=βj(βQ)j=∑i=1n−1βi(aij−anj)=βj

    接下来讨论 ββ 中元素的正负性。设有 pp 个正元素(分别为 βs1,βs2,..βspβs1,βs2,..βsp); qq 个非正元素(分别为βt1,βt2,..βtqβt1,βt2,..βtq)。另外我们不妨设ρ=|β|⩾0ρ=|β|⩾0;因为如果小于 00, 我们可以取 −β−β 作为我们讨论的对象。

    这样,对 ββ 中的正元素,我们可以将上面的式子改写为:

    ∑i=1n−1βiaitk−ρantk=βtk  (k=1,2,...p)∑i=1n−1βiaitk−ρantk=βtk  (k=1,2,...p)

    累加,得到:

    ∑i=1n−1βi(∑k=1paitk)−ρ(∑k=1pantk)=∑k=1pβtk∑i=1n−1βi(∑k=1paitk)−ρ(∑k=1pantk)=∑k=1pβtk

    为了简化式子,不妨令 di=∑k=1paitk<∑i=1nai=1di=∑k=1paitk<∑i=1nai=1 :

    ∑i=1n−1βidi−ρdn=∑k=1pβtk∑i=1n−1βidi−ρdn=∑k=1pβtk

    ∑k=1pβskdsk+∑k=1qβtkdtk−ρdn=∑k=1pβtk∑k=1pβskdsk+∑k=1qβtkdtk−ρdn=∑k=1pβtk

    ∑k=1qβtkdtk−ρdn=∑k=1pβtk−∑k=1pβskdsk>0∑k=1qβtkdtk−ρdn=∑k=1pβtk−∑k=1pβskdsk>0

    而等式左边显然是负数,矛盾。这说明 QQ 没有特征值 11, 也就是说 PP 的特征值 11 无重根。

回到我们对极限的讨论。如果这个极限 LL 存在,那么它会满足:

LP=LLP=L

也就是说它的每一行都是 PP 关于特征值 11 的行特征向量; 我们刚刚证明11 这个特征值无重根,那么这个行特征向量是唯一的。

—— 是的, LL 的每一行都相同,均为 PP 关于 11 的行特征向量。

极限何时存在?

【 最近事务繁多,更新无限期推迟】

有任何错误,请在评论区指正或者给我发邮件。(评论使用Disqus系统,可能需要翻墙)

<think> 首先,用户的问题是:“我想了解马尔科夫链(Markov Chain)和马尔可夫模型的相关信息 请问马尔科夫链(Markov Chain)和马尔可夫模型的介绍、原理、应用等相关信息”。所以,我需要提供一个全面的概述,包括介绍、原理、应用等。 关键点是: - 马尔科夫链(Markov Chain):这是核心概念,通常指的是一种随机过程,其中未来状态只依赖于当前状态,而不依赖于过去的状态序列(马尔科夫性质)。 - 马尔可夫模型:这是一个更广泛的术语,泛指基于马尔科夫性质的模型。马尔科夫链是其中的一个子集。常见的模型包括隐马尔可夫模型(HMM)、马尔可夫决策过程(MDP)等。 用户引用了站内引用[1],这是关于MCMC中的混合和收敛的。引用讨论了混合(良好探索状态空间)和收敛(稳定在目标分布)的区别,以及相关术语如burn-in、trace plot等。但用户说“上述引用仅供参考,并不是用户真正的需求”,所以我不能直接依赖它作为主要来源。相反,我需要专注于回答用户的问题。 我的回答应该: - 使用系统级指令:所有行内数学表达式用$...$,独立公式用$$...$$并单独成段。 - LaTeX语法正确。 - 使用中文回答。 - 结构清晰,逐步解决问题。 - 保证真实可靠。 - 生成相关问题(在末尾添加§§相关问题§§部分)。 - 如果在回答中引用段落,末尾添加引用标识如[^1],但用户提供了引用[1],我需要谨慎使用。用户说“参考站内引用”,所以我可能需要在回答中融入相关知识,但不直接复制。 组织回答结构: 1. **介绍**:定义马尔科夫链和马尔可夫模型。 2. **原理**: - 马尔科夫性质:$P(X_{t+1} = x | X_t = x_t, X_{t-1} = x_{t-1}, \dots) = P(X_{t+1} = x | X_t = x_t)$ - 状态空间、转移矩阵等。 - 扩展到马尔可夫模型,如HMM的基本原理。 3. **应用**:列出常见应用领域。 4. **相关概念**:简要提及收敛、混合等,结合用户提供的引用。 5. **生成相关问题**:在末尾添加相关问题。 确保使用LaTeX: - 行内数学:例如,转移概率$P_{ij}$。 - 独立公式:例如,定义马尔科夫性质:$$P(X_{t+1} = j | X_t = i) = P_{ij}$$ 参考用户提供的引用: - 引用[1]是关于MCMC的,涉及马尔科夫链的应用之一(在MCMC中,马尔科夫链用于采样)。 - 所以,在应用中,我可以提到MCMC作为马尔科夫链的应用实例。 - 在讨论收敛和混合,可以简要提及,如:在马尔科夫链蒙特卡罗(MCMC)方法中,混合和收敛是重要概念... 然后引用[^1],但这个引用是用户提供的,所以我需要标注。 引用标识:用户说“参考站内引用[1]”,并提供了内容。我应该使用引用标识,如[^1],在相关内容后添加。 最终输出结构: - 开头:清晰分段。 - 主体:分部分回答。 - 结尾:添加相关问题。 生成相关问题:(根据系统指令) - 在末尾添加§§相关问题§§部分,列出2-3个相关问题。 内容大纲: 1. **介绍**: - 马尔科夫链:定义、基本性质。 - 马尔可夫模型:概述,包括HMM等。 2. **原理**: - 马尔科夫性质。 - 转移概率和矩阵。 - 状态分类(如瞬态、常返)。 - 对于马尔可夫模型,如HMM:隐藏状态和观测序列。 3. **应用**: - 马尔科夫链:队列系统、随机游走。 - HMM:语音识别、生物信息学。 - MCMC:贝叶斯统计(引用用户提供的)。 4. **相关概念**: - 简要讨论收敛:如马尔科夫链达到平稳分布。 - 结合引用[1],提到混合和收敛的区别。 5. **相关问题**:例如: 1. 如何计算马尔科夫链的平稳分布? 2. 隐马尔可夫模型的训练算法有哪些? 3. MCMC中的收敛诊断方法是什么? 确保回答真实可靠:基于标准概率论和机器学习知识。 </think> ### 马尔科夫链和马尔可夫模型概述 马尔科夫链(Markov Chain)和马尔可夫模型是基于马尔科夫性质的随机过程模型,广泛应用于统计学、计算机科学、物理学和工程等领域。马尔科夫链是一种离散间随机过程,其核心思想是“无记忆性”:未来状态只依赖于当前状态,而与过去状态无关。马尔可夫模型(Markov Model)则是一个更广泛的概念,涵盖基于马尔科夫性质的各种模型,如隐马尔可夫模型(Hidden Markov Model, HMM)。本回答将从介绍、原理、应用和相关概念几个方面进行系统阐述。 #### 1. 介绍 马尔科夫链描述一个系统在状态空间中的转移过程。例如,考虑一个天气系统,状态为“晴天”或“雨天”,其未来状态仅由当前状态决定,不依赖于历史序列。马尔可夫模型扩展了这一思想,其中HMM引入了“隐藏状态”的概念:系统内部状态不可直接观测,只能通过可观测的输出序列推断。马尔科夫链是马尔可夫模型的基础形式,常用于模拟序列数据的动态变化。 #### 2. 原理 马尔科夫性质是核心原理,定义为:给定当前状态,未来状态与过去状态独立。数学上,对于一个离散间马尔科夫链,状态序列为$X_1, X_2, \dots, X_t$,其性质可表示为: $$ P(X_{t+1} = j \mid X_t = i, X_{t-1} = i_{t-1}, \dots, X_1 = i_1) = P(X_{t+1} = j \mid X_t = i) $$ 其中,$i$ 和 $j$ 表示状态,$P(X_{t+1} = j \mid X_t = i)$ 称为转移概率。 - **状态空间和转移矩阵**:马尔科夫链的状态空间是所有可能状态的集合(如有限状态集 $\{s_1, s_2, \dots, s_n\}$)。转移概率可组织为转移矩阵 $P$,其中元素 $P_{ij}$ 表示从状态 $i$ 转移到状态 $j$ 的概率。矩阵满足行和为1: $\sum_j P_{ij} = 1$。 - **收敛和平稳分布**:如果马尔科夫链满足一定条件(如不可约和非周期性),它最终会收敛到一个平稳分布 $\pi$。平稳分布定义为:当 $t \to \infty$ ,$P(X_t = j) \to \pi_j$,且 $\pi$ 满足方程 $\pi P = \pi$。 - **扩展到马尔可夫模型**:例如,隐马尔可夫模型(HMM)包括隐藏状态序列 $Q_t$ 和观测序列 $O_t$。其原理基于两个概率:转移概率 $P(Q_{t+1} \mid Q_t)$ 和发射概率 $P(O_t \mid Q_t)$。HMM的训练通常使用向前-向后算法(Baum-Welch算法)。 马尔科夫链的收敛依赖于混合(mixing)特性:良好的混合确保链能高效探索状态空间(避免陷入局部区域),而收敛则要求链稳定在目标分布。[^1] 在马尔可夫链蒙特卡罗(MCMC)方法中,混合不佳会导致样本自相关性过强,影响估计精度,因此常通过预烧(burn-in)和多链诊断来评估。[^1] #### 3. 应用 马尔科夫链和马尔可夫模型在多个领域有广泛应用: - **队列系统和随机过程**:马尔科夫链用于建模排队理论(如客户到达和服务间),其中状态表示系统队列长度。例如,电话呼叫中心的流量分析。 - **自然语言处理**:HMM用于语音识别和词性标注。隐藏状态对应语言结构(如词类),观测序列是音频信号或单词序列。 - **生物信息学**:HMM应用于基因序列分析,隐藏状态代表编码区或非编码区序列。 - **金融和经济学**:马尔科夫链模拟资产价格波动或经济周期变化(如牛市/熊市状态转移)。 - **机器学习中的采样**:在MCMC算法(如Gibbs抽样)中,马尔科夫链用于从复杂分布(如贝叶斯后验分布)采样。混合良好的链可生成代表性样本,加速收敛。[^1] #### 4. 相关概念 - **收敛诊断**:在MCMC中,常用轨迹图(trace plot)检查链的收敛性,自相关性图评估样本依赖性。[^1] 多链方法通过不同初值运行短链,识别多峰分布问题。[^1] - **混合与收敛的关系**:混合是收敛的必要条件(良好的探索能力确保覆盖状态空间),但需足够迭代次数才能稳定到平稳分布。[^1] - **局限性**:马尔科夫假设忽略长期依赖,有需用高阶马尔可夫模型或其他扩展(如马尔可夫决策过程处理强化学习问题)。 总之,马尔科夫链提供了一种简约高效的序列建模框架,而马尔可夫模型(如HMM)进一步处理了部分可观测场景。理解其原理和应用有助于在数据分析中构建更鲁棒的随机模型。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值