11.1 Latent variable models 隐变量模型
图模型尝试在不同的观察变量之间建立条件独立关系,另一种思路则是用隐变量模型,即 LVMs, Latent variable models,这种模型假设观察变量都是从一个共同的“隐变量”中得到的。
隐变量的意思就是无法观测到,没有数据,可以人为定义个数和表示的含义。因此聚类算法中的簇就可以看做是隐变量,而有监督学习中如果给了簇的标定数据,就变成观察数据了,叫做标签。
隐变量模型虽然很难推导,但是也有很多的好处。首先隐变量相对于图模型,解决同一个问题时,其参数更少。其次,隐变量可以作为 bottleneck,计算了数据的压缩表示(compressed representation of the data),这个是无监督学习的基础。
我们可以用 xi=(xi1,...,xiD) 表示观察变量,用 zi=(zi1,...,ziL) 表示隐变量。根据先验概率 p(zi) 和似然概率 p(xi|zi) 服从的概率分布,隐变量模型可以有很多的模型。比如混合高斯模型(Mixture of Gaussian),概率 ICA(Probablistic ICA),隐狄利克雷分配(LDA,Latent Dirichlet Allocation),稀疏编码(Sparse Coding),因子分析(Factor Analysis)
11.2 Mixture models 混合模型
最简单的隐变量模型,就是让隐变量服从离散分布,即 zi∈{
1,...,K},等于是加一个先验,p(zi)=Cat(π),其中 π={
π1,...,πK} 表示每个隐变量取值的概率。而似然可以用符号 p(xi|zi=k)=pk(xi) 表示,其中 pk 就是观察变量的第 k 个基本分布(base distribution),整个模型就是混合模型,即第
11.2.1 Mixtures of Gaussians 高斯混合模型
如果把上面的 base distribution 取多元高斯分布(MVN)的话,得到的就是高斯混合模型,GMM,Gaussian Mixture Model,
11.2.2 Mixture of multinoullis 多努利混合模型
如果我们的数据是 D 维的 bit vectors,比如文档模型,那么最好用伯努利分布的乘积来表示,
有时候隐变量不一定要有什么意义(难解释性),可能只是说让模型更强大。可以证明混合分布的均值和方差如下: