前言:
EM算法总是跟高斯混合模型联系在一起,再延伸到最近所看论文有所涉及,
唉,貌似总是有点晕,故而总结一下。
1. EM算法
参考:斯坦福大学机器学习课程课件(吴恩达)notes 8.pdf
推导过程特别具体,基于最大似然估计、Jensen不等式。
重点关注公式(2)(3),将expection最大化,很好地解释了maximize expection--EM
2. 高斯混合聚类
1)参考:《机器学习》周志华 9.4.3节
属于原型聚类(prototype-based clustering)的一种。9.4节 原型聚类:先对原型进行初始化,然后对模型进行迭代更新求解。
采用概率模型表达聚类原型。
推导过程较为简单。
E步骤:根据当前参数计算每个样本属于各个高斯分布的后验概率;
M步骤:更新3类模型参数
包括:多项式分布的概率(latent random variables,和为1)、高斯均值、方差。
2)参考:斯坦福大学机器学习课程课件(吴恩达)notes 7b.pdf
3. probabilistic clustering
翻译成 概率聚类、基于概率的聚类?
论文《Robust clustering using outlier-sparsity regularization》
第2章B介绍了probabilistic clustering,
第3章提出了robust probabilistic clustering,使得probabilistic clustering能够outlier-aware,
第4章将robust probabilistic clustering核化,适用于 高维/非线性可分 情况。
4. EM算法在半监督学习的应用
ref:《机器学习》周志华 13.2节
生成式方法假设所有数据都由同一个潜在的模型“生成”,这个假设使得我们能通过潜在模型的参数将unlabeled data与学习目标结合,
unlabeled data的标记看作模型的缺失参数,通常可基于EM算法进行极大似然估计求解。