一、DBSCAN 简记
1.先上图

上图写了DBSCN算法的具体步骤:

2.参数主要由半径R,主要用来寻找核心点P的邻域,min_samples为圆内点的最小点数,如果大于等于则认为中心点有效。
3.流程:
1. 随意选择一个未被访问过的点,然后寻找半径为R的点内的圆内的点。
2. 看圆内的点的个数 是否大于 min_samples?
是:把p当作中心点,然后创建个聚类C,然后把P标记为已访问。
否:把P标记为早点,已访问。
3.遍历核心点P在R邻域内的所有点,都标记为C类别。
然后把R内的所有点都当作是核心点,去侵蚀旁边的点,可以侵蚀的到则标记为C类别,重复3操作,直到我找不到离我很近的点。
4.重复完2-3后生成了C类别。
5.将全部数据信息减去C类别的数据,然后重复1步骤,最终选择出所有的类别,即所有的点均被访问过。
其中:


核心点:邻域半径R内样本点的数量大于等于min_samples的点。
边界点:点Q不属于核心点但在某个核心点P的邻域内的点,即在某个核心点的R邻域内,但是Q这个点的半径R内的点不满足min_sample的数量。
噪声点:既不是核心点也不是边界点的是。
二、优点:
1。无需指定聚类的个数。
2。对类别的形状没有要求。
3。对于外点不敏感,对噪声稳定。
三、缺点:
1。基于密度的,所以对于两个类别,如果中间有数据连接,且满足min_samples的数量,则两个类别就会当成是一个类别。
2。对于高维数据处理的不好。

DBSCAN算法详解
本文深入解析DBSCAN算法,包括其工作原理、参数设置、流程步骤,以及如何定义核心点、边界点和噪声点。同时,文章探讨了DBSCAN的优点,如无需预设聚类数量、对类别形状无特定要求及对外点不敏感;并讨论了其缺点,例如可能将相连的两类误判为一类及处理高维数据能力不足。
1606

被折叠的 条评论
为什么被折叠?



