增强型K-Means:自动k值估计与离群点检测
1. 相关工作概述
在聚类算法的研究中,K-Means算法是一种经典且常用的方法,但它也存在一些显著的缺点,如随机初始化质心导致效率低下、难以确定最佳的聚类数k以及对离群点敏感等问题。许多研究者针对这些问题提出了不同的改进方法:
- 基于粒子群优化的初始化 :有研究者提出利用粒子群优化(PSO)算法初始化K-Means的质心,将迭代次数减少了约六倍,使聚类收敛更快且更准确。
- 结合DBSCAN和K-Means :通过结合DBSCAN和K-Means算法,解决了两者的缺点。先使用DBSCAN将数据集聚类成m组,再根据输入的k值进行K-Means聚类,避免了DBSCAN聚类可能重叠的问题。
- K值选择技术研究 :对Elbow Method、Gap Statistic、Silhouette Coefficient和Canopy K值选择方法进行了研究和实验验证,通过实验结果比较来确定最佳的K值。
- “分而治之”策略 :为了解决传统K-Means中初始质心定位和数据项分配的问题,提出了“分而治之”策略,先获取聚类中心,再进行K-Means以得到最优的聚类中心,提高了执行速度并降低了复杂度。
- 改进DBSCAN算法 :在DBSCAN聚类中引入统计显著性,使用空间扫描统计和基线蒙特卡罗方法,以及Dual-Convergence算法来加速计算,消除了随机模式,提高了算法效率。
- 结合K-Means和Elbow方法
超级会员免费看
订阅专栏 解锁全文
2043

被折叠的 条评论
为什么被折叠?



