密度聚类DBSCAN

最新推荐文章于 2025-11-19 13:06:40 发布

原创

最新推荐文章于 2025-11-19 13:06:40 发布 · 388 阅读

CC 4.0 BY-SA版权

文章标签：

DBSCAN是一种基于密度的聚类算法，关注样本间的紧密程度。文章介绍了DBSCAN的相关概念，如邻域、核心对象、密度直达、密度可达和密度相连，并详细阐述了算法流程。接着，通过Python代码展示了DBSCAN的实现过程，证明其在聚类效果上能有效识别和排除离群点。

1.相关概念

DBSCAN是基于密度的聚类算法，该类算法假设聚类结构能够通过样本分布的紧密程度确定（样本密度均匀分布）,它通常考虑的是样本之间的可连接性，并以最大连接性确定聚类簇。要搞懂该算法，首先要理清楚几个概念：

邻域：对于样本 $xi∈Dx_i \in D$ ,其邻域包含样本集D中距离 $x_i$ 不超过 $ϵ\epsilon$ 的样本，即 $xj∈D∣dist(xi,xj)≤ϵ}N_\epsilon(x_i)=\{x_j \in D | dist(x_i,x_j) \leq \epsilon \}$ 。若采用欧式距离，那么 $Nϵ(xi)N_\epsilon(x_i)$ 就是以 $x_i$ 为圆心，以 $ϵ\epsilon$ 为半径的圆域。
核心对象: $x_i$ 的邻域中至少包含 $m i n P t s$ 个样本，即 $∣Nϵ(xi)∣≥minPts|N_\epsilon(x_i)| \geq minPts$ ，则 $x_i$ 是一个核心对象。这说明核心对象紧邻着多个样本，所以核心对象是算法关注的对象。
密度直达: $x_j$ 在 $x_i$ 的邻域中且 $x_i$ 是核心对象，则称 $x_j$ 由 $x_i$ 密度直达，记作 $xi→xjx_i \rightarrow x_j$ 。不难理解，因为核心对象 $x_i$ 与邻域中的样本紧密的挨着，我们可以认为 $x_i$ 和 $x_j$