聚类算法之基于密度的聚类算法DBSCAN算法

最新推荐文章于 2025-10-14 16:24:04 发布

原创

最新推荐文章于 2025-10-14 16:24:04 发布 · 940 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#聚类 #算法 #python #聚类算法

DBSCAN是一种基于密度的聚类算法，它定义簇为密度相连的点的最大集合，不受数据分布形状限制。算法涉及ε和MinPts参数，ε表示邻域距离阈值，MinPts表示邻域中样本数量阈值。DBSCAN过程包括初始化核心对象集合，遍历样本找到核心对象，形成聚类簇。算法优点在于能处理任意形状的聚类和异常点，但对参数调优要求较高，且在数据密度不均匀时可能效果不佳。

DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一个比较有代表性的基于密度的聚类算法。与划分和层次聚类方法不同，它将簇定义为密度相连的点的最大集合，能够把具有足够高密度的区域划分为簇，并可在噪声的空间数据库中发现任意形状的聚类。

DBSCAN算法最重要的两个参数是 $ε\varepsilon$ 和 $M i n P t s$ ，其中 $ε\varepsilon$ 描述了某一样本的邻域距离阈值， $M i n P t s$ 描述了某一样本的距离为 $ε\varepsilon$ 的邻域中样本个数的阈值。

DBSCAN算法中的概念

$ε\varepsilon$ ： 包含样本集 $D$ 中与某个样本 $x$ 的距离不大于 $ε\varepsilon$ 的子样本集。
核心对象： 对于任意一个样本 $x$ ，若其 $ε\varepsilon$ 邻域中至少包含 $M i n P t s$ 个样本，则该样本 $x$ 是核心对象。
密度直达： 若 $x_i$ 位于 $x_j$ 的 $ε\varepsilon$ 邻域中，且 $x_j$ 是核心对象，则称 $x_i$ 由 $x_j$ 密度直达，反之不一定成立。
密度可达： 对于 $x_i$ 和 $x_j$ ，若存在样本序列 $P1,P2,...,Pt}\begin{Bmatrix}P_1,P_2,...,P_t\end{Bmatrix}$ ，满足 $P_1=x_i,P_t=x_j$