期望最大化与模糊聚类中的形状和大小正则化
1. 引言
在聚类分析中,基于原型的聚类方法,如模糊聚类、高斯混合模型的期望最大化(EM)算法或学习向量量化等,常使用距离函数来衡量数据点之间的相似度。若采用欧氏距离,所有聚类将呈现(超)球形;而更复杂的方法则依赖于特定聚类的马氏距离,能够发现(超)椭球形的聚类,并且放宽了所有聚类大小相同的限制。然而,这些额外的自由度往往会降低聚类算法的鲁棒性,使其应用有时面临问题。
本文旨在探讨如何对聚类的形状和大小参数进行正则化,即修改这些参数以排除极端情况或引入对极端情况的偏差,从而有效提高算法的鲁棒性。形状正则化的基本思想类似于线性优化问题中的Tikhonov正则化,而大小和权重正则化则基于对平等性的偏好,这与拉普拉斯校正或贝叶斯概率估计方法类似。
2. 混合模型与EM算法
在混合模型中,假设给定的数据集来自多个聚类的总体。每个聚类由一个概率分布表征,包括先验概率和条件概率密度函数(cpdf)。数据生成过程可想象为:首先为一个数据点选择一个聚类,确定要使用的cpdf,然后从该cpdf中采样得到数据点。
数据点的概率可通过以下公式计算:
[P(X)=\sum_{i = 1}^{c}P(C = i)P(X|C = i)]
其中,(C)是描述第一步中选择的聚类的随机变量,(X)是描述数据点属性值的随机向量,(P(C = i))是第(i)个聚类的先验概率,(P(X|C = i))是给定聚类(i)时数据点(X)的条件概率密度。
假设数据点是独立同分布的,数据集的概率可计算为各数据点概率的乘积。虽然我们不知道每个数据点对应的聚类,但可以使用贝叶斯规则计算数据点来自第(i)个聚