二分均值簇:
昨天研究了针对某一特殊问题的解决方案,今天克服k-means算法收敛于局部最小值的问题一个常用的解决思路,即二分k-means。算法首先将所有点作为一个簇,然后将该簇一分为2。之后选择其中一个簇进行划分,选择哪一个簇进行划分取决于对其划分是否可以最大程度降低SSE的值。上述基于SSE的划分过程不断重复,直到得到用户指定数目的簇为止。
二分k-均值算法的伪代码形式如下:
将所有点看成一个簇
当簇数目小于k时:
对于每一个簇
计算总误差
在给定的簇上面进行k-means聚类(k=2)
计算将该簇一分为2后的总误差
选择使得误差最小的那个簇进行划分操作
另一种做法是选择SSE最大的簇进行划分,直到簇数目达到用户指定的数目为止。
今日完成:
1.k-means二分均值方法
2.UGC注册中,HPKFS
明日计划:
1.k-means二分方法要搞清楚是什么意思
2.完成注册
3.看论文unsupervisedlearning