本次描述地这篇论文是《K-Multiple-Means: A Multiple-Means Clustering Method with Specified K Clusters》,这是一篇关于多原型聚类地文章。
众所周知,K-means是一种非常流行地聚类方法,使用一个质心对每一类的数据进行建模,在大多数的数据分布中能取得很好的效果。但是对于双月牙形这种非凸图案,得到的聚类结果很差。由此作者提出了一种新的多原型聚类的方法——KMM(K多均值聚类)。
不同于以往的原型聚类方法(层次聚类),即先将数据分成许多小的子类,然后通过某种方式将它们迭代合并为给定数量的类别,这需要很高的时间复杂度。 本论文的创新点是将样本和m个子簇中心构成一个二部图,并对其施加秩约束从而将其划分为c个簇。
目标函数为:
其中m的取值是 n ∗ c \sqrt{n*c} n∗c,n为样本的数量,c为簇(类别的个数)。
算法流程图:
复杂度: