聚类常用的两种算法
- k-means算法
- DBSCAN算法
原理:
kmeans:参数: 核数
1、随机初始化核心点
2、每个点计算与核心的距离,把最近的点设置为那个簇。
3、距离的计算一般为欧式距离,见下方说明
4、更新簇的中心点为所有点的中心,再依次更新所有点的所属簇。
。。。。
欧式距离算法
直到距离和簇不再发生变化
缺点:1、 所有核心点的初始化非常影响效果,
2、无法分类较为复杂的数据点。
DBSCAN算法:
传销算法:
传入密度阈值,和离心半径(相当于多少钱能升级代理)
产出所有的核心点,生成直接密度可达(一级代理), 一级代理发展下线(和核心的关系叫密度可达),发展到最后,没有下线的叫边界点。
如有p和k点 与核心q都是密度可达的,称为p和k密度相连(代理姐妹)。
噪声点:无法划分的,不属于下线的,即老鼠屎,无法被传销吞并,也称异常点,离群点。