MLaPP Chapter 11 Mixture models and the EM algorithm

本文详细介绍了混合模型和 EM 算法在机器学习中的应用,特别是隐变量模型、高斯混合模型、多努利混合模型以及如何使用它们进行聚类。EM 算法的基本思想和在高斯混合模型中的应用被深入探讨,包括 E 步和 M 步的计算。此外,还讨论了 K-means 算法作为 EM 的一个特例,以及 EM 算法在避免局部最优和参数估计中的挑战。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

11.1 Latent variable models 隐变量模型

图模型尝试在不同的观察变量之间建立条件独立关系,另一种思路则是用隐变量模型,即 LVMs, Latent variable models,这种模型假设观察变量都是从一个共同的“隐变量”中得到的。

隐变量的意思就是无法观测到,没有数据,可以人为定义个数和表示的含义。因此聚类算法中的簇就可以看做是隐变量,而有监督学习中如果给了簇的标定数据,就变成观察数据了,叫做标签。

隐变量模型虽然很难推导,但是也有很多的好处。首先隐变量相对于图模型,解决同一个问题时,其参数更少。其次,隐变量可以作为 bottleneck,计算了数据的压缩表示(compressed representation of the data),这个是无监督学习的基础。

我们可以用 xi=(xi1,...,xiD) 表示观察变量,用 zi=(zi1,...,ziL) 表示隐变量。根据先验概率 p(zi) 和似然概率 p(xi|zi) 服从的概率分布,隐变量模型可以有很多的模型。比如混合高斯模型(Mixture of Gaussian),概率 ICA(Probablistic ICA),隐狄利克雷分配(LDA,Latent Dirichlet Allocation),稀疏编码(Sparse Coding),因子分析(Factor Analysis)

11.2 Mixture models 混合模型

最简单的隐变量模型,就是让隐变量服从离散分布,即 zi{ 1,...,K},等于是加一个先验,p(zi)=Cat(π),其中 π={ π1,...,πK} 表示每个隐变量取值的概率。而似然可以用符号 p(xi|zi=k)=pk(xi) 表示,其中 pk 就是观察变量的第 k 个基本分布(base distribution),整个模型就是混合模型,即第 i 个数据 xi 的“新的似然概率”可以表示如下,

p(xi|θ)=k=1Kπkpk(xi|θ)
这是一个 pk 的凸组合(convex combination),因为每个混合权重(mixing weights) πk 都满足 0πk1 Kk=1πk=1 。下面有一些混合模型的例子。

11.2.1 Mixtures of Gaussians 高斯混合模型

如果把上面的 base distribution 取多元高斯分布(MVN)的话,得到的就是高斯混合模型,GMM,Gaussian Mixture Model,

p(xi|θ)=k=1KπkN(xi|μk,Σk)
如果 K 充分大的话,GMM 可以拟合定义在 RD 上的任意密度。

11.2.2 Mixture of multinoullis 多努利混合模型

如果我们的数据是 D 维的 bit vectors,比如文档模型,那么最好用伯努利分布的乘积来表示,

p(xi|zi=k,θ)=j=1DBer(xij|μjk)=j=1Dμxijjk(1μjk)1xij
比如说我们用来表示词袋模型,词汇表里有 D 个词汇,训练集中文档的索引用 i 来表示,那么 xi 表示的是第 i 个文档, xij 表示的文档中是否有第 j 个词,就是说 xij{0,1} ,是个比特值。那么 ujk 表示的就是第 j 个词,出现在第 k 类文档中的概率。这里的要学习的参数 θ 就是要学习的矩阵 μ

有时候隐变量不一定要有什么意义(难解释性),可能只是说让模型更强大。可以证明混合分布的均值和方差如下:

E(x)=kπkμkcov[x]=kπk[Σk+μkμTk]E[x]E[x]T
其中 Σk=diag(μjk(1μjk
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值