1.简述kmeans流程
随机选择k个结点作为聚类中心,依次计算所有结点到距离中心的距离,将新的结点划分到与其最近的聚类中心所在的簇,更新聚类中心点,重复次过程,直至所有的数据所属的簇不在发生变化为止
2.kmeans对异常值是否敏感?为何?
敏感,因为K-mean需要计算距离,异常值会导致距离变化,从而分类错误
3.如何评估聚类效果
兰德系数
调整兰德系数
轮廓系数
4.超参数k如何选择?
肘部法则:遍历不同的K,计算代价函数,并画出代价函数变化趋势,选择使代价函数变平缓的点所对应得K值
5.kmeans算法的优缺点(各说三个)
优点:原理简单,易于实现;可解释性强;参数少
缺点:计算量大,速度慢;数据量大时不适用;对异常值敏感





本文深入探讨了KMeans聚类算法的流程,解释了其对异常值的敏感性,并介绍了评估聚类效果的方法,如兰德系数、调整兰德系数和轮廓系数。此外,讨论了如何通过肘部法则选择合适的超参数k。同时,文章指出了KMeans算法的优缺点,包括其简单性、可解释性以及在大数据和异常值处理上的挑战。
1893

被折叠的 条评论
为什么被折叠?



