【机器学习】基于密度的聚类DBSCAN

最新推荐文章于 2025-07-15 14:54:58 发布

原创最新推荐文章于 2025-07-15 14:54:58 发布 · 1.5k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#密度聚类 #DBSCAN

机器学习同时被 2 个专栏收录

29 篇文章

订阅专栏

机器学习进阶之路

26 篇文章

订阅专栏

其他机器学习系列文章见于专题：机器学习进阶之路——学习笔记整理，欢迎大家关注。

1. 密度聚类

密度聚类假设聚类结构能够通过样本分布的紧密程度确定，其主要思想是：通过样本之间是否紧密相连来判断样本点是否属于同一个簇。

这类算法能克服基于距离的算法（如K-Means）只能发现凸聚类的缺点，可以发现任意形状的聚类，且对噪声数据不敏感，但计算密度大暖的计算复杂度大，需要建立空间索引来降低计算量。

2. DBSCAN算法

DBSCAN（Density-Based Spatial Clustering of Applications with Noise）是一种著名的密度聚类算法。

它的核心思想是：用一个样本点的 $ϵ$ 领域内的样本数目来表征该样本所在的空间密度，由密度可达关系导出的最大的密度相连样本集合就是聚类得到的一个“簇”。该算法能够把密度足够高的区域划分为“簇”，并且可以在有“噪声”的数据中发现任意形状的聚类。

给定数据集 $\left\{ \boldsymbol { x } _ { 1 } , \boldsymbol { x } _ { 2 } , \dots , \boldsymbol { x } _ { m } \right\}$ ，DBSCAN的一些概念如下：

$ϵ$ -邻域：即对于样本点 $x_j$ ，和它的距离在 $ϵ$ 之内的属于样本集 $D$ 中的点的集合，即 $\epsilon } \left( \boldsymbol { x } _ { j } \right) = \left\{ \boldsymbol { x } _ { i } \in D | \operatorname { dist } \left( \boldsymbol { x } _ { i } , \boldsymbol { x } _ { j } \right) \leqslant \epsilon \right\}$ ；

核心对象：若 $x_j$ 的 $ϵ$ 邻域至少包含 $M i n P t s$ 个样本，即 $Nϵ(x_j)|≥MinPts$ ，那么 $x_j$ 是一个核心对象；

密度直达：如果 $x_j$ 位于核心对象 $x_i$ 的 $ϵ$ 邻域内，则称 $x_j$ 由 $x_i$ 密度直达；

密度可达：存在一个样本序列 $p_1,p_2,⋯,p_n$ ， $x_j$ 到 $p_1$ 是直达的， $\boldsymbol { p } _ { 1 } = \boldsymbol { x } _ { i }$ ， $\boldsymbol { p } _ { n } = \boldsymbol { x } _ { j }$ ，且 $p_{i+1}$ 由 $p_i$ 密度直达，则称 $x_j$ 由 $x_i$ 密度可达；