由于K-Means对于初始簇心比较敏感,解决K-Means算法对初始簇心比较敏感的问题,二分K-Means算法是一种弱化初始质心
的一种算法,具体思路步骤如下:
1、将所有样本数据作为一个簇放到一个队列中从队列中选择一个簇进行K-means算法划分,划分为两个子簇,并将子簇添加到队列中
2、循环迭代第二步操作,直到中止条件达到(聚簇数量、最小平方误差、迭代次数等)
队列中的簇就是最终的分类簇集合
二分k-means算法是分层聚类(Hierarchical clustering)的一种,分层聚类是聚类分析中常用的方法。
分层聚类的策略一般有两种:
- 聚合。这是一种
自底向上的方法,每一个观察者初始化本身为一类,然后两两结合 - 分裂。这是一种
自顶向下的方法,所有观察者初始化为一类,然后递归地分裂它们
二分k-means算法是分裂法的一种。
从队列中选择划分聚簇的规则一般有两种方式;分别如下:
对所有簇计算误差和SSE(SSE也可以认为是距离函数的一种变种),选择SSE最大的聚簇进行划分
操作(优选这种策略)选择样本数据量最多的簇进行划分操作

二分K-Means优缺点:
优点:
缺点:
- 二分K均值算法可以加速K-means算法的执行速度,因为它的相似度计算少了
- 不受初始化问题的影响,因为这里不存在随机点的选取,且每一步都保证了误差最小

二分K-Means算法是为了解决K-Means对初始簇心敏感的问题,通过不断划分样本数据来弱化此影响。算法流程包括将所有数据作为初始簇,选择一簇进行K-means划分,直到满足特定中止条件。该方法属于分层聚类中的分裂策略,通常选择误差和最大或样本数最多的簇进行划分。二分K-Means的优点在于加快执行速度且不受初始化影响,但其缺点未详细说明。
最低0.47元/天 解锁文章
1万+

被折叠的 条评论
为什么被折叠?



