密度聚类 DBSCAN ｜ Density-based clustering

密度聚类算法详解：原理、优缺点与应用

原创

已于 2023-10-06 14:57:27 修改 · 4.9k 阅读

35 ·

CC 4.0 BY-SA版权

文章标签：

#聚类 #算法 #机器学习 #密度聚类 #DBSCAN

于 2023-06-03 09:40:29 首次发布

密度聚类是一种无监督学习的聚类算法，如DBSCAN，能发现任意形状的聚类簇，适用于噪声数据处理。其优点包括对噪声不敏感、可处理大规模和高维数据，但参数设置和密度分布要求较高。常见应用场景包括异常检测、图像分割和网络流量分析等。评价指标有轮廓系数、Calinski-Harabasz指数等。在Python中，可以使用scikit-learn等库实现密度聚类。

七、类库scikit-learn实现密度聚类的例子

八、密度聚类的模型参数

总结

前言

密度聚类是机器学习中无监督学习的一种聚类算法。

一、密度聚类是什么？

密度聚类（Density-Based Spatial Clustering of Applications with Noise）是具有噪声的基于密度的聚类方法，也是一种基于密度的空间聚类算法。其核心思想就是先发现密度较高的点，然后把相近的高密度点逐步都连成一片，进而生成各种簇。

算法实现上就是，以每个数据点为圆心，eps为半径画圆（成为邻域eps-neigbourhood），然后数有多少点在这个圆内，这个数就是该点的密度值。然后我们可以选取一个密度阈值MinPts，如果圆内点数小于MinPts的点为低密度的点，而大于或等于MinPts的点为高密度的点（成为核心点Core Point）。如果有一个高密度的点在另一个高密度的点圆内，我们就把这两个点连接起来，这样我们就可以把很多点不断连接起来。之后，如果有低密度的点也在高密度的点的圆内，把它也连到最近的高密度点上，称之为边界点。这样所有能连到一起的点就形成了一个簇，而不在任何高密度点的低密度点就是异常点。