聚类常用的两种算法
- k-means算法
- DBSCAN算法
原理:
kmeans:参数: 核数
1、随机初始化核心点
2、每个点计算与核心的距离,把最近的点设置为那个簇。
3、距离的计算一般为欧式距离,见下方说明
4、更新簇的中心点为所有点的中心,再依次更新所有点的所属簇。
。。。。
欧式距离算法
直到距离和簇不再发生变化

缺点:1、 所有核心点的初始化非常影响效果,
2、无法分类较为复杂的数据点。
DBSCAN算法:
传销算法:
传入密度阈值,和离心半径(相当于多少钱能升级代理)
产出所有的核心点,生成直接密度可达(一级代理), 一级代理发展下线(和核心的关系叫密度可达),发展到最后,没有下线的叫边界点。
如有p和k点 与核心q都是密度可达的,称为p和k密度相连(代理姐妹)。
噪声点:无法划分的,不属于下线的,即老鼠屎,无法被传销吞并,也称异常点,离群点。

本文介绍了两种常用的聚类算法:k-means和DBSCAN。k-means算法通过随机初始化核心点,依据欧式距离将点分配到最近的簇,并不断更新簇中心,直至簇不再变化。然而,k-means对初始点选择敏感,难以处理复杂数据。相比之下,DBSCAN不依赖于预先设定的核数,基于密度对数据点进行聚类,能发现任意形状的簇,同时标记出噪声点。这两种算法各有优劣,在实际应用中需根据数据特性选择合适的聚类方法。


1万+

被折叠的 条评论
为什么被折叠?



