聚类算法的大致发展过程HCM - FCM - RCFCM - S-FCM - HSFCM。
HCM
传统的硬C均值聚类算法的突出特点是非此即彼,隶属度函数的取值只有0和1两个数,用这种方法对样本进行分类时,由于分类标准是硬性的,聚类结果往往不够准确。
FCM
模糊C均值聚类算法通过将隶属度函数的取值从HCM算法的二值
{0,1}扩展到(0,1)这个区间,使得聚类结果更加合理。
算法具体介绍:http://blog.youkuaiyun.com/in_nocence/article/details/78306297
【发现问题】
但是,将HCM扩展为FCM提高聚类准确度的同时还带来了另外一个问题:算法的收敛速度变慢,这个问题在样本数大的情况下尤为明显。而且,当某一个聚类中心离所有的样本数据距离都很远时,所有数据对它都没有吸引力,这样一来,这个中心的位置就得不到调整,即它的位置在整个聚类过程中不会改变,这种现象叫做“死结点”,死结点的存在,会使HCM算法陷入局部极值,最终得到错误的聚类结果。
【分析原因】
在HCM算法中,由于聚类是硬性的,它的隶属度值非0即1,也就是说,样本只对其属于的类别有隶属度,换句话说,样本只对离它最近的聚类中心有吸引力(不受其他类吸引的干扰),因此收敛速度比较快。
但是,FCM算法就不同了,它的隶属度函数的取值情况决定了每一个样本都会对各类的聚类中心产生影响,同理,样本对于各类聚类中心都有一定的吸引力(隶属度越大,吸引力越大,聚类中心下一次的迭代值所受影响就越大),这样一来,样本由于受到不同聚类中