MLaPP Chapter 11 Mixture models and the EM algorithm

最新推荐文章于 2023-08-27 11:07:11 发布

原创

最新推荐文章于 2023-08-27 11:07:11 发布 · 1.9k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #隐变量模型

本文详细介绍了混合模型和 EM 算法在机器学习中的应用，特别是隐变量模型、高斯混合模型、多努利混合模型以及如何使用它们进行聚类。EM 算法的基本思想和在高斯混合模型中的应用被深入探讨，包括 E 步和 M 步的计算。此外，还讨论了 K-means 算法作为 EM 的一个特例，以及 EM 算法在避免局部最优和参数估计中的挑战。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

11.1 Latent variable models 隐变量模型

图模型尝试在不同的观察变量之间建立条件独立关系，另一种思路则是用隐变量模型，即 LVMs, Latent variable models，这种模型假设观察变量都是从一个共同的“隐变量”中得到的。

隐变量的意思就是无法观测到，没有数据，可以人为定义个数和表示的含义。因此聚类算法中的簇就可以看做是隐变量，而有监督学习中如果给了簇的标定数据，就变成观察数据了，叫做标签。

隐变量模型虽然很难推导，但是也有很多的好处。首先隐变量相对于图模型，解决同一个问题时，其参数更少。其次，隐变量可以作为 bottleneck，计算了数据的压缩表示（compressed representation of the data），这个是无监督学习的基础。

我们可以用 $\mathbf{x}_i = (x_{i1},...,x_{iD})$ 表示观察变量，用 $\mathbf{z}_i = (z_{i1},...,z_{iL})$ 表示隐变量。根据先验概率 $p(\mathbf{z}_i)$ 和似然概率 $p(\mathbf{x}_i | \mathbf{z}_i)$ 服从的概率分布，隐变量模型可以有很多的模型。比如混合高斯模型（Mixture of Gaussian），概率 ICA（Probablistic ICA），隐狄利克雷分配（LDA，Latent Dirichlet Allocation），稀疏编码（Sparse Coding），因子分析（Factor Analysis）

11.2 Mixture models 混合模型

最简单的隐变量模型，就是让隐变量服从离散分布，即 $z_i \in \{1,...,K\}$ ，等于是加一个先验， $p(z_i) = \text{Cat}(\boldsymbol\pi)$ ，其中 $\boldsymbol\pi = \{\pi_1, ...,\pi_K\}$ 表示每个隐变量取值的概率。而似然可以用符号 $p(\mathbf{x}_i | z_i = k) = p_k(\mathbf{x}_i)$ 表示，其中 $p_k$ 就是观察变量的第 $k$ 个基本分布（base distribution），整个模型就是混合模型，即第 $i$ 个数据 $\mathbf{x}_i$ 的“新的似然概率”可以表示如下，

p (x i | θ) = \sum k = 1 K π k p k (x i | θ)

$p(\mathbf{x}_i | \boldsymbol\theta) = \sum_{k=1}^K \pi_k p_k (\mathbf{x}_i | \boldsymbol\theta)$ 这是一个

pk $p_k$ 的凸组合（convex combination），因为每个混合权重（mixing weights）

πk $\pi_k$ 都满足

0≤πk≤1 $0 \le \pi_k \le 1$ 且

∑Kk=1πk=1 $\sum_{k=1}^K \pi_k = 1$ 。下面有一些混合模型的例子。

11.2.1 Mixtures of Gaussians 高斯混合模型

如果把上面的 base distribution 取多元高斯分布（MVN）的话，得到的就是高斯混合模型，GMM，Gaussian Mixture Model，

p (x i | θ) = \sum k = 1 K π k N (x i | μ k, Σ k)

$p(\mathbf{x}_i | \boldsymbol\theta) = \sum_{k=1}^K \pi_k \mathcal{N}(\mathbf{x}_i | \boldsymbol\mu_k, \boldsymbol\Sigma_k)$ 如果

K $K$ 充分大的话，GMM 可以拟合定义在

RD $\mathbb{R}^D$ 上的任意密度。

11.2.2 Mixture of multinoullis 多努利混合模型

如果我们的数据是 $\text{D}$ 维的 bit vectors，比如文档模型，那么最好用伯努利分布的乘积来表示，

p (x i | z i = k, θ) = \prod j = 1 D Ber (x i j | μ j k) = \prod j = 1 D μ x i j j k (1 - μ j k) 1 - x i j

$p(\mathbf{x}_i | z_i = k, \boldsymbol\theta) = \prod_{j=1}^D \text{Ber}(x_{ij} | \mu_{jk}) = \prod_{j=1}^D \mu_{jk}^{x_{ij}} ( 1 - \mu_{jk})^{1-x_{ij}}$ 比如说我们用来表示词袋模型，词汇表里有

D $D$ 个词汇，训练集中文档的索引用

i $i$ 来表示，那么

xi $\mathbf{x}_i$ 表示的是第

i $i$ 个文档，

xij $x_{ij}$ 表示的文档中是否有第

j $j$ 个词，就是说

xij∈{0,1} $x_{ij} \in \{0, 1\}$ ，是个比特值。那么

ujk $u_{jk}$ 表示的就是第

j $j$ 个词，出现在第

k $k$ 类文档中的概率。这里的要学习的参数

θ $\boldsymbol\theta$ 就是要学习的矩阵

μ $\boldsymbol\mu$ 。

有时候隐变量不一定要有什么意义（难解释性），可能只是说让模型更强大。可以证明混合分布的均值和方差如下：

E (x) = \sum k π k μ k cov [x] = \sum k π k [Σ k + μ k μ T k] - E [x] E [x] T

$\mathbb{E}(\mathbf{x}) = \sum_k \pi_k \boldsymbol\mu_k \\ \text{cov}[\mathbf{x}] = \sum_k \pi_k [\boldsymbol\Sigma_k + \boldsymbol\mu_k \boldsymbol\mu_k^T] - \mathbb{E}[\mathbf{x}]\mathbb{E}[\mathbf{x}]^T$ 其中