Chapter 13: Sequential data

本文探讨了序列数据的建模方法,介绍了Markov模型与状态空间模型,并深入分析了隐马尔科夫模型(HMM)与线性动态系统(LDS)。文章详细解释了HMM的参数估计、前向后向算法、维特比算法等内容。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一:Introduction

1:在之前的章节中,我们假设数据集中的数据点是独立且全同分布的(i.i.d.)以至于我们可以将似然函数表达成每个数据点概率分布积的形式,但是这个情况不能适用所有情况,比如序列数据(sequential data)。sequential data经常出现在时间序列的测量中,数据先后产生。直觉告诉我们这些数据应该是前后关联的,所以i.i.d.的假设是不适用的;

2:序列分布(sequential distribution)分为静态(stationary)和非静态(nonstationary)这两种类型,在静态情况下,虽然数据随着时间演化,但产生数据的概率分布是始终不变的;在非静态情况下,数据不仅随着时间演化,并且产生数据的概率分布也随着时间变化;

3:Markov models和state space models能够被用来描述序列数据(sequential data),Markov models假定未来的预测并不是与所有过去的观察都有关,而是只与最近的观察有关;相比于Markov model,state sapce models具有更多的普遍性,该模型是通过latent variables的引入来使得未来的预测与所有过去的观察均有关联;state space models有两种重要的具体例子,一个是hidden markov models,其latent variables是离散分布的,另外一个是latent variables服从高斯分布的linear dynamical systems。

二:Markov Models

1:first-order Markov chain说的是条件在现在的态,未来态与过去态无关,概率表达形式为p(x⃗ n|x⃗ 1,...,x⃗ n1)=p(x⃗ n|x⃗ n1)。因此当我们用如此的模型去预测下一个观察值,预测分布仅仅依赖于其先前的一个观察值,与更早的观察值无关;

2:不难看出first-order markov chain有其局限性,如果我们允许观察值与先前两个观察值有关,我们就获得了一个second-order Markov chain,数学表达形式为p(x⃗ n|x⃗ 1,...,x⃗ n1)=p(x⃗ n|x⃗ n1,x⃗ n2)

3:因此按照上述思路,我们能够有Mth-order Markov chain,也就是一个变量的条件分布依赖于其先前M个变量。虽然如此模型的灵活性增加了,但是这个模型的参数的数目为KM1(K1)(假设变量有K个离散态),是随着M指数增长的,因此对于比较大的M,Mth-order Markov chain很难行得通;

4:在这种情况下,为了使得目前的观测值与所有过去的观测值均相关,同时又避免过多的参数,我们能够引入latent variables z⃗ ,每个观察x⃗ n都有一个对应的latent variable z⃗ n,对应的条件概率分布为p(x⃗ n|x⃗ n),同时latent variable形成了first-order Markov chain,这就导致了state space model,所有变量的联合概率分布如下:

p(x⃗ 1,...,x⃗ N,z⃗ 1,...,z⃗ N)=p(z⃗ 1){ n=2Np(z⃗ n|z⃗ n1)}n=1Np(x⃗ n|z⃗ n)
并且对于 x⃗ n+1 的预测分布 p(x⃗ n+1|x⃗ 1,...,x⃗ n) 没有任何的条件独立性质,因此state space model达到了我们之前要求,即 X⃗ n+1 的观察依赖于所有先前的观察;

5:用于描述序列数据(sequential data)的state space models有两个非常重要的例子,一个是hidden Markov model,其latent variablesz⃗ 是离散的,但观察变量x⃗ 可以是连续的也可以是离散的,条件概率分布p(z⃗ n|z⃗ n1)以及p(x⃗ n|z⃗ n)能够被很多概率模型描述;另外一个例子是linear dynamical system(LSD),latent variables和observed variables都是连续的,并且条件在它们母结点的条件概率分布满足linear-Gaussian 依赖性;

三:Hidden Markov Models(HMM)

1):假设形成Markov chain的latent variables z⃗ n有K个态,用1-of-K coding scheme表示。令Ajk=p(znk=1|zn1,j=1)(0=<Ajk<=1,kAjk=1,矩阵A的元素被称之为transition probabilities),因此条件在z⃗ n1z⃗ n的条件分布如下:

p(z⃗ n|z⃗ n1)=k=1Kj=1KAzn1,jznkjk
初始的latent node z⃗ 1 的分布如下:
p(z⃗ 1|π⃗ )=k=1Kπz1kk
其中 πk 满足 kπk=1

2):条件在latent variables z⃗ n的观察变量概率分布p(x⃗ n|z⃗ n,ϕ⃗ )被称之为发射概率(emission probabilities),具有如下形式:

p(x⃗ n|z⃗ n,ϕ⃗ )=k=1Kp(x⃗ n|ϕ⃗ k)znk

在这里 ϕ⃗  为此发射概率的参数集;

3):下面的讨论限定于homogeneous model。对于homogeneous model来说,所有latent variables的条件分布具有相同的参数A,以及所有的emission probabilities具有相同的参数ϕ⃗ 。在此情况下,latent和observed变量的联合分布如下:

p(X,Z|θ⃗ )=p(z⃗ 1|π⃗ )[n=2Np(z⃗ n|z⃗ n1,A)]m=1Np(x⃗ m|z⃗ m,ϕ⃗ )

在这里 X={ x⃗ 1,...,x⃗ N},Z={ z⃗ 1,...,z⃗ N},θ⃗ ={ π⃗ ,A,ϕ⃗ }

4):通过对tansition matrix A的形式施加限制,标准HMM的许多变体能够被获得。其中有一个特别重要的例子是left-to-right HMM,对应的A满足Ajk=0(k<j),在此基础上,若A进一步被限制为Ajk=0(k>j+Δ),则可以确保latent variable的state index不会发生大的改变;

1:Maximum likelihood for the HMM

1):由于似然函数可以表达为p(X|θ⃗ )=Zp(X,Z|θ⃗ ),因此我们可以用EM算法求解似然函数最大值对应的参数值

2):complete-log似然函数如下:

Q(θ⃗ ,θ⃗ old)=k=1Kγ(z1k)lnπk+n=2Nj=1Kk=1Kξ(
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值