一:Introduction
1:在之前的章节中,我们假设数据集中的数据点是独立且全同分布的(i.i.d.)以至于我们可以将似然函数表达成每个数据点概率分布积的形式,但是这个情况不能适用所有情况,比如序列数据(sequential data)。sequential data经常出现在时间序列的测量中,数据先后产生。直觉告诉我们这些数据应该是前后关联的,所以i.i.d.的假设是不适用的;
2:序列分布(sequential distribution)分为静态(stationary)和非静态(nonstationary)这两种类型,在静态情况下,虽然数据随着时间演化,但产生数据的概率分布是始终不变的;在非静态情况下,数据不仅随着时间演化,并且产生数据的概率分布也随着时间变化;
3:Markov models和state space models能够被用来描述序列数据(sequential data),Markov models假定未来的预测并不是与所有过去的观察都有关,而是只与最近的观察有关;相比于Markov model,state sapce models具有更多的普遍性,该模型是通过latent variables的引入来使得未来的预测与所有过去的观察均有关联;state space models有两种重要的具体例子,一个是hidden markov models,其latent variables是离散分布的,另外一个是latent variables服从高斯分布的linear dynamical systems。
二:Markov Models
1:first-order Markov chain说的是条件在现在的态,未来态与过去态无关,概率表达形式为p(x⃗ n|x⃗ 1,...,x⃗ n−1)=p(x⃗ n|x⃗ n−1)。因此当我们用如此的模型去预测下一个观察值,预测分布仅仅依赖于其先前的一个观察值,与更早的观察值无关;
2:不难看出first-order markov chain有其局限性,如果我们允许观察值与先前两个观察值有关,我们就获得了一个second-order Markov chain,数学表达形式为p(x⃗ n|x⃗ 1,...,x⃗ n−1)=p(x⃗ n|x⃗ n−1,x⃗ n−2)
3:因此按照上述思路,我们能够有Mth-order Markov chain,也就是一个变量的条件分布依赖于其先前M个变量。虽然如此模型的灵活性增加了,但是这个模型的参数的数目为KM−1(K−1)(假设变量有K个离散态),是随着M指数增长的,因此对于比较大的M,Mth-order Markov chain很难行得通;
4:在这种情况下,为了使得目前的观测值与所有过去的观测值均相关,同时又避免过多的参数,我们能够引入latent variables z⃗ ,每个观察x⃗ n都有一个对应的latent variable z⃗ n,对应的条件概率分布为p(x⃗ n|x⃗ n),同时latent variable形成了first-order Markov chain,这就导致了state space model,所有变量的联合概率分布如下:
5:用于描述序列数据(sequential data)的state space models有两个非常重要的例子,一个是hidden Markov model,其latent variablesz⃗ 是离散的,但观察变量x⃗ 可以是连续的也可以是离散的,条件概率分布p(z⃗ n|z⃗ n−1)以及p(x⃗ n|z⃗ n)能够被很多概率模型描述;另外一个例子是linear dynamical system(LSD),latent variables和observed variables都是连续的,并且条件在它们母结点的条件概率分布满足linear-Gaussian 依赖性;
三:Hidden Markov Models(HMM)
1):假设形成Markov chain的latent variables z⃗ n有K个态,用1-of-K coding scheme表示。令Ajk=p(znk=1|zn−1,j=1)(0=<Ajk<=1,∑kAjk=1,矩阵A的元素被称之为transition probabilities),因此条件在z⃗ n−1的z⃗ n的条件分布如下:
2):条件在latent variables z⃗ n的观察变量概率分布p(x⃗ n|z⃗ n,ϕ⃗ )被称之为发射概率(emission probabilities),具有如下形式:
在这里 ϕ⃗ 为此发射概率的参数集;
3):下面的讨论限定于homogeneous model。对于homogeneous model来说,所有latent variables的条件分布具有相同的参数A,以及所有的emission probabilities具有相同的参数ϕ⃗ 。在此情况下,latent和observed变量的联合分布如下:
在这里 X={ x⃗ 1,...,x⃗ N},Z={ z⃗ 1,...,z⃗ N},θ⃗ ={ π⃗ ,A,ϕ⃗ }
4):通过对tansition matrix A的形式施加限制,标准HMM的许多变体能够被获得。其中有一个特别重要的例子是left-to-right HMM,对应的A满足Ajk=0(k<j),在此基础上,若A进一步被限制为Ajk=0(k>j+Δ),则可以确保latent variable的state index不会发生大的改变;
1:Maximum likelihood for the HMM
1):由于似然函数可以表达为p(X|θ⃗ )=∑Zp(X,Z|θ⃗ ),因此我们可以用EM算法求解似然函数最大值对应的参数值
2):complete-log似然函数如下: