上一篇博文介绍了层次聚类算法的实现http://blog.youkuaiyun.com/c_son/article/details/43900503 ,可以发现其效率比较低下,因为每次迭代都要计算每两个聚簇之间的距离。这次的k-means算法在效率上要优于层次聚类算法。
算法实现:
1)从样本D中随机选取K个元素,作为K个簇的中心
2)分别计算剩下的元素到K个簇的距离,将这些元素归化到距离最短的簇
3)根据聚类结果,重新计算K个簇各自的中心,计算方法是取簇中所有元素各自维度的算术平均
4)将D中的元素按照新的中心重新聚类
5)重复第四步,直到中心不发生变化
6)将结果输出
这次所用的数据集还是层次聚类所使用的数据集:
| A | 2 | 3 |
| B | 2 | 7 |
| C | 1 | 2 |
| D | 1 | 6 |
| E | 2 | 1 |
| F | 3 | 5 |
| G | 8 | 5 |
| H | 9 | 6 |

本文介绍了K-means聚类算法的实现过程,相较于层次聚类算法,K-means在效率上有优势。算法包括随机选取初始中心、元素归类、簇中心更新等步骤,并通过实例数据集进行演示。然而,K-means的结果易受初始中心选择和噪声影响。
最低0.47元/天 解锁文章
2万+

被折叠的 条评论
为什么被折叠?



