分享一下最近看的三篇关于分类数据的集成聚类的论文。
目录
A cluster ensemble method for clustering categorical data(Information Fusion '05)
A unified view in the CE framework
A cluster ensemble method for clustering categorical data(Information Fusion '05)
Research Question
Categorical data clustering (CDC) and cluster ensemble (CE) have long been considered as separate research and application areas. The main focus of this paper is to investigate the commonalities between these two problems and the uses of these commonalities for the creation of new clustering algorithms for categorical data based on cross-fertilization between the two disjoint research fields.
Define the CDC problem as an optimization problem from the viewpoint of CE, and apply CE approach for clustering categorical data.
Application of existing algorithm
The clustering technique has been extensively studied in many fields such as pattern recognition [1], customer segmentation[2], similarity search [3] and trend analysis [4].
Research significance of the paper
CDC和CE问题的等价性。
以往都是平行发展,该篇论文指出两个领域是可以相互学习的。
Theory and Method
举一个例子
对于分类数据集,如果把属性值看作是聚类标签,那么每个属性及其属性值都会在数据集上给出一个“最佳聚类”,而不需要考虑其他属性,因此,每个属性的属性值是不同聚类算法的输出。
比如说:
对于 Attribute1 可以分为两类,对于 Attribute2 可以分为3类。
提出 CDC 问题下 CE 的 object function
根据 q 个不同的分区拥有k(q)个不同的clusters, 共识函数可以定义为:
对于一个最好的组合,应该共享最多的信息,在信息理论中,互信息是用来衡量两个分布信息共享程度的理论方法。因此可以将 A 和 B 两个对应不同的分区对应的不同k值进行金酸,I(A,B) 表示 A 和 B 的互信息,同时 H(A) 和 H(B) 表示 A 和 B 的信息熵。因此, NMI 可以表示为:
引入信息熵和信息增益,公式3可以转化为如下:
因此,平均互信息可以定义为:
其中,Λ 表示 λq 的合集。
最终,λk-opt 可以定义为在所需的共识 cluster 数量为 k 的情况下,与之对应的所有个体 λq 拥有最大的平均互信息。
λ 表示所有可能的 k 对应的 λ 值。
由于CDC问题可以被视作一个CE问题,所以公式 (4) 可以当做CDC问题下CE的目标函数。
Cluster ensemble based algorithm
hypergraph-model based algorith
- CSPA
如果两个物体在同一个聚类中,那么他们就被认为是完全相似的,如果不是,就为不相似。因此对于base clustering都有一个N * N的矩阵,然后使用METIS算法[32]用来构建similarity graph。
- HGPA
每一个cluster被表示为具有相同权重的 hyperedge,数据对象被认为是具有相同权重的顶点,然后使用超图分割算法 HMETIS 对超图进行分割,使得超图切割的权重之和达到最小化,最终产生的 unconnected components 作为算法的最终输出。
- MCLA
对HGPA的优化,将每个聚类表示为一个 hyperedge,MCLA的想法是将相关的 hyperedge 进行分组和折叠,那么可以减少 hyperedge 的数量。
Experiment
实验部分比较简单,也只比较了三个数据集。
Conclusion:
这一篇文章虽然年代久远,但是把分类数据的聚类和集成聚类两者说的很明白,入门顶级paper。
分享一下我的理解:
聚类的目的是在数据集中发现群体和识别有趣的模式。我们把对数据有特殊看法的特定聚类算法称为聚类器。每个聚类器都会输出一个聚类或标签,包括一些或所有对象的组标签。
集成聚类(CE)是将不同聚类算法的几次运行结合起来,以获得原始数据集的共同分区,目的是将所有的单个聚类结果进行整合。
Similarity
1) Input
从聚类的角度来看,具有不同聚类标签的数据对象被认为是在不同的聚类中,如果两个对象在同一个聚类中,那么它们被认为是完全相似的,反之则是完全不相似的。
因此,很明显,聚类标签不可能被赋予类似于实数的自然排序,也就是说,聚类算法的输出可以被看作是分类的(ornominal)。
2) Output
CE试图结合不同聚类算法的多次运行,以获得原始数据集的共同分区,目的是将单个聚类结果的组合重新整合起来。
3)Objective to achieve
要实现的目标: CE和CDC的目标都是将输入的分类数据分组,使集群内的相似度达到最大,而集群间的相似度达到最小。
Differences
一般来说,CDC算法的输入分类数据集不存在(或只有少数)重复的对象。而CE问题的输入分类数据集通常包含大量的重复对象,因为聚类器往往会产生彼此相似的聚类。
A unified view in the CE framework
对于一个分类数据集,如果我们把属性值看作是聚类标签,那么每个属性及其属性值都会对数据集给出一个 "最佳聚类",而不考虑其他属性。因此,CDC问题可以被认为是CE问题,其中每个属性的属性值是不同聚类算法的输出。