聚类(Clustering)也称为聚类分析,指将样本分到不同的组中使得同一组中的样本差异尽可能的小,而不同组中的样本差异尽可能的大。
聚类得到的不同的组称为簇(Cluster)。一个好的聚类方法将产生以下的聚类:
- 最大化簇中的相似性
- 最小化簇间的相似性
聚类分析的典型应用
- 空间数据分析
图像处理——灰度图像的二值化(对灰度像素进行聚类)。 - 万维网
对WEB日志数据进行聚类,以发现类似的用户访问模式。 - 金融领域
用户交易数据的聚类分析,以获得奇异点(异常交易)。
……
主要聚类方法的分类
聚类方法大致可以分为以下几类:
- 划分聚类方法
- 层次聚类方法
- 密度聚类方法
- 网格聚类方法
- 基于模型的方法
- 其它聚类方法
划分聚类方法
划分方法将给定的数据集划分成k份,每份为一个簇。划分方法通常采用迭代重定位技术,尝试通过对象在簇之间的移动来改进划分。
在每次迭代,通过观察聚类的簇内差异(Within cluster variation)和簇间差异(Between cluster variation)来确定划分。
簇内差异:衡量聚类的紧凑性,簇内差异可以用特定的距离函数来定义,例如,
簇间差异:衡量不同聚类之间的距离,簇间差异定义为聚类中心间的距离,例如,
b(C)=∑1≤j≤i≤kd(x¯j,x¯