DBSCAN 简记

DBSCAN算法详解

最新推荐文章于 2025-08-10 13:06:33 发布

原创最新推荐文章于 2025-08-10 13:06:33 发布 · 702 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#dbscan聚类 #DBSCAN python

机器学习专栏收录该内容

3 篇文章

订阅专栏

本文深入解析DBSCAN算法，包括其工作原理、参数设置、流程步骤，以及如何定义核心点、边界点和噪声点。同时，文章探讨了DBSCAN的优点，如无需预设聚类数量、对类别形状无特定要求及对外点不敏感；并讨论了其缺点，例如可能将相连的两类误判为一类及处理高维数据能力不足。

一、DBSCAN 简记

1.先上图

在这里插入图片描述

上图写了DBSCN算法的具体步骤：

在这里插入图片描述

2.参数主要由半径R，主要用来寻找核心点P的邻域，min_samples为圆内点的最小点数，如果大于等于则认为中心点有效。

3.流程：

1. 随意选择一个未被访问过的点，然后寻找半径为R的点内的圆内的点。
2. 看圆内的点的个数是否大于 min_samples？
是：把p当作中心点，然后创建个聚类C，然后把P标记为已访问。
否：把P标记为早点，已访问。
3.遍历核心点P在R邻域内的所有点，都标记为C类别。
然后把R内的所有点都当作是核心点，去侵蚀旁边的点，可以侵蚀的到则标记为C类别，重复3操作，直到我找不到离我很近的点。
4.重复完2-3后生成了C类别。
5.将全部数据信息减去C类别的数据，然后重复1步骤，最终选择出所有的类别，即所有的点均被访问过。

其中：

在这里插入图片描述

核心点：邻域半径R内样本点的数量大于等于min_samples的点。

边界点：点Q不属于核心点但在某个核心点P的邻域内的点，即在某个核心点的R邻域内，但是Q这个点的半径R内的点不满足min_sample的数量。

噪声点：既不是核心点也不是边界点的是。

二、优点：

1。无需指定聚类的个数。

2。对类别的形状没有要求。

3。对于外点不敏感，对噪声稳定。

三、缺点：

1。基于密度的，所以对于两个类别，如果中间有数据连接，且满足min_samples的数量，则两个类别就会当成是一个类别。

2。对于高维数据处理的不好。

在这里插入图片描述

参考链接

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。