Chapter 13: Sequential data

最新推荐文章于 2024-06-16 09:15:00 发布

weishenmetlc

最新推荐文章于 2024-06-16 09:15:00 发布

阅读量1.7k

点赞数 3

CC 4.0 BY-SA版权

分类专栏：模式识别与机器学习1-14章内容小结-bishop

本文链接：https://blog.youkuaiyun.com/weishenmetlc/article/details/53400289

本文探讨了序列数据的建模方法，介绍了Markov模型与状态空间模型，并深入分析了隐马尔科夫模型（HMM）与线性动态系统（LDS）。文章详细解释了HMM的参数估计、前向后向算法、维特比算法等内容。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一：Introduction

1：在之前的章节中，我们假设数据集中的数据点是独立且全同分布的（i.i.d.）以至于我们可以将似然函数表达成每个数据点概率分布积的形式，但是这个情况不能适用所有情况，比如序列数据(sequential data)。sequential data经常出现在时间序列的测量中，数据先后产生。直觉告诉我们这些数据应该是前后关联的，所以i.i.d.的假设是不适用的；

2：序列分布(sequential distribution)分为静态(stationary)和非静态(nonstationary)这两种类型，在静态情况下，虽然数据随着时间演化，但产生数据的概率分布是始终不变的；在非静态情况下，数据不仅随着时间演化，并且产生数据的概率分布也随着时间变化；

3：Markov models和state space models能够被用来描述序列数据(sequential data)，Markov models假定未来的预测并不是与所有过去的观察都有关，而是只与最近的观察有关；相比于Markov model，state sapce models具有更多的普遍性，该模型是通过latent variables的引入来使得未来的预测与所有过去的观察均有关联；state space models有两种重要的具体例子，一个是hidden markov models，其latent variables是离散分布的，另外一个是latent variables服从高斯分布的linear dynamical systems。

二：Markov Models

1：first-order Markov chain说的是条件在现在的态，未来态与过去态无关，概率表达形式为 $p(\vec x_{n}|\vec{x}_{1},...,\vec{x}_{n-1})=p(\vec{x}_{n}|\vec{x}_{n-1})$ 。因此当我们用如此的模型去预测下一个观察值，预测分布仅仅依赖于其先前的一个观察值，与更早的观察值无关；

2：不难看出first-order markov chain有其局限性，如果我们允许观察值与先前两个观察值有关，我们就获得了一个second-order Markov chain，数学表达形式为 $p(\vec x_{n}|\vec{x}_{1},...,\vec{x}_{n-1})=p(\vec{x}_{n}|\vec{x}_{n-1},\vec{x}_{n-2})$

3：因此按照上述思路，我们能够有Mth-order Markov chain，也就是一个变量的条件分布依赖于其先前M个变量。虽然如此模型的灵活性增加了，但是这个模型的参数的数目为 $K^{M-1}(K-1)$ （假设变量有K个离散态），是随着M指数增长的，因此对于比较大的M，Mth-order Markov chain很难行得通；

4：在这种情况下，为了使得目前的观测值与所有过去的观测值均相关，同时又避免过多的参数，我们能够引入latent variables $\vec{z}$ ，每个观察 $\vec{x}_{n}$ 都有一个对应的latent variable $\vec{z}_{n}$ ，对应的条件概率分布为 $p(\vec{x}_{n}|\vec{x}_{n})$ ，同时latent variable形成了first-order Markov chain，这就导致了state space model，所有变量的联合概率分布如下：

p (x ⃗ 1, . . ., x ⃗ N, z ⃗ 1, . . ., z ⃗ N) = p (z ⃗ 1) {\prod n = 2 N p (z ⃗ n | z ⃗ n - 1)} \prod n = 1 N p (x ⃗ n | z ⃗ n)

$p(\vec{x}_{1},...,\vec{x}_{N},\vec{z}_{1},...,\vec{z}_{N})=p(\vec{z}_{1})\{\prod_{n=2}^{N}p(\vec{z}_{n}|\vec{z}_{n-1})\}\prod_{n=1}^{N}p(\vec{x}_{n}|\vec{z}_{n})$ 并且对于

x⃗ n+1 $\vec{x}_{n+1}$ 的预测分布

p(x⃗ n+1|x⃗ 1,...,x⃗ n) $p(\vec{x}_{n+1}|\vec{x}_{1},...,\vec{x}_{n})$ 没有任何的条件独立性质，因此state space model达到了我们之前要求，即

X⃗ n+1 $\vec{X}_{n+1}$ 的观察依赖于所有先前的观察；

5：用于描述序列数据(sequential data)的state space models有两个非常重要的例子，一个是hidden Markov model，其latent variables $\vec{z}$ 是离散的，但观察变量 $\vec{x}$ 可以是连续的也可以是离散的，条件概率分布 $p(\vec{z}_{n}|\vec{z}_{n-1})$ 以及 $p(\vec{x}_{n}|\vec{z}_{n})$ 能够被很多概率模型描述；另外一个例子是linear dynamical system(LSD)，latent variables和observed variables都是连续的，并且条件在它们母结点的条件概率分布满足linear-Gaussian 依赖性；

三：Hidden Markov Models(HMM)

1)：假设形成Markov chain的latent variables $\vec{z}_{n}$ 有K个态，用1-of-K coding scheme表示。令 $A_{jk}=p(z_{nk}=1|z_{n-1,j}=1)$ ( $0=<A_{jk}<=1,\sum_{k}A_{jk}=1$ ，矩阵A的元素被称之为transition probabilities)，因此条件在 $\vec{z}_{n-1}$ 的 $\vec{z}_{n}$ 的条件分布如下：

p (z ⃗ n | z ⃗ n - 1) = \prod k = 1 K \prod j = 1 K A z n - 1, j z n k j k

$p(\vec{z}_{n}|\vec{z}_{n-1})=\prod_{k=1}^{K}\prod_{j=1}^{K}A_{jk}^{z_{n-1,j}z_{nk}}$ 初始的latent node

z⃗ 1 $\vec{z}_{1}$ 的分布如下：

p (z ⃗ 1 | π ⃗) = \prod k = 1 K π z 1 k k

$p(\vec{z}_{1}|\vec{\pi})=\prod_{k=1}^{K}\pi_{k}^{z_{1k}}$ 其中

πk $\pi_{k}$ 满足

∑kπk=1 $\sum_{k}\pi_{k}=1$

2)：条件在latent variables $\vec{z}_{n}$ 的观察变量概率分布 $p(\vec{x}_{n}|\vec{z}_{n},\vec{\phi})$ 被称之为发射概率(emission probabilities)，具有如下形式：

p (x ⃗ n | z ⃗ n, ϕ ⃗) = \prod k = 1 K p (x ⃗ n | ϕ ⃗ k) z n k

$p(\vec{x}_{n}|\vec{z}_{n},\vec{\phi})=\prod_{k=1}^{K}p(\vec{x}_{n}|\vec{\phi}_{k})^{z_{nk}}$
在这里

ϕ⃗ $\vec{\phi}$ 为此发射概率的参数集；

3)：下面的讨论限定于homogeneous model。对于homogeneous model来说，所有latent variables的条件分布具有相同的参数A，以及所有的emission probabilities具有相同的参数 $\vec{\phi}$ 。在此情况下，latent和observed变量的联合分布如下：

p (X, Z | θ ⃗) = p (z ⃗ 1 | π ⃗) [\prod n = 2 N p (z ⃗ n | z ⃗ n - 1, A)] \prod m = 1 N p (x ⃗ m | z ⃗ m, ϕ ⃗)

$p(X,Z|\vec{\theta})=p(\vec{z}_{1}|\vec{\pi})[\prod_{n=2}^{N}p(\vec{z}_{n}|\vec{z}_{n-1},A)]\prod_{m=1}^{N}p(\vec{x}_{m}|\vec{z}_{m},\vec{\phi})$
在这里

X={ x⃗ 1,...,x⃗ N},Z={ z⃗ 1,...,z⃗ N},θ⃗ ={ π⃗ ,A,ϕ⃗ } $X=\{\vec{x}_{1},...,\vec{x}_{N}\},Z=\{\vec{z}_{1},...,\vec{z}_{N}\},\vec{\theta}=\{\vec{\pi},A,\vec{\phi}\}$

4)：通过对tansition matrix A的形式施加限制，标准HMM的许多变体能够被获得。其中有一个特别重要的例子是left-to-right HMM，对应的A满足 $A_{jk}=0(k<j)$ ，在此基础上，若A进一步被限制为 $A_{jk}=0(k>j+\Delta)$ ,则可以确保latent variable的state index不会发生大的改变；