聚类算法与高斯混合模型详解
1. 常见聚类算法概述
1.1 Mean - Shift算法
Mean - Shift算法会将圆心落在相同位置(或足够接近)的圆所关联的数据点分配到同一簇中。它与DBSCAN有一些相似特征,比如能发现任意数量、任意形状的簇,超参数极少(只有一个圆的半径,称为带宽),且依赖局部密度估计。不过,当簇内部密度有变化时,Mean - Shift倾向于将簇分割成小块。其计算复杂度为$O(m^2)$,不适合处理大型数据集。
1.2 Affinity propagation算法
该算法使用投票系统,数据实例会为相似实例投票,使其成为代表。算法收敛后,每个代表及其投票者形成一个簇。Affinity propagation能检测任意数量、不同大小的簇,但计算复杂度为$O(m^2)$,同样不适合大型数据集。
1.3 Spectral clustering算法
此算法先获取数据实例间的相似度矩阵,从中创建低维嵌入(即降维),然后在低维空间使用另一种聚类算法(Scikit - Learn实现中使用K - Means)。Spectral clustering能捕捉复杂的簇结构,也可用于图分割(如识别社交网络中的好友簇)。但它在处理大量实例时扩展性不佳,且当簇大小差异很大时表现不好。
下面用表格总结这几种算法的特点:
| 算法名称 | 特点 | 计算复杂度 | 适用场景 |
| ---- | ---- | ---- | ---- |
| Mean - Shift | 能发现任意形状簇,超参数少,易分割密度变化簇 | $O(m^2)$ | 小型数据集 |
| Affini
超级会员免费看
订阅专栏 解锁全文

1979

被折叠的 条评论
为什么被折叠?



