密度聚类

最新推荐文章于 2025-07-15 14:54:58 发布

原创最新推荐文章于 2025-07-15 14:54:58 发布 · 1.1w 阅读

20 ·

CC 4.0 BY-SA版权

机器学习同时被 2 个专栏收录

21 篇文章

订阅专栏

机器学习专栏

21 篇文章

订阅专栏

本文介绍了DBSCAN密度聚类算法的基本原理，包括核心对象、密度直达、密度可达等概念，详细阐述了算法流程及输入参数的选择，并分析了该算法的优点和缺点。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

引言

其实对于所有的聚类问题，都有一个核心点，那就是以什么样的规则来划分两个点是不是同一类。密度聚类，本质上就是基于一种密度的概念来进行聚类。而密度的定义本质上也是来自于两点的距离，所以其实对于聚类的算法来看，大家本质上都差不多，谁也别笑话谁。下面我们来总结介绍一种叫做DBSCAN的密度算法。

DBSCAN

DBSCAN 的全称是 Density-Based Spatial Clustering of Applications with Noise
单词里面有个noise,这就说明我们的算法是能抗噪声的，并且我们的算法是可以在空间中聚类为任意形状的聚类的，这点是一些其他的聚类算法不具备的性质，如下所示：

这里写图片描述
具有这样的性能，就是因为我们的算法引入了“邻域”（其参数为 $(\varepsilon, MinPts )$ ）的概念来刻画样本的紧密程度的算法。

下面我们来介绍一下这个算法，在具体算法之前，我们先看几个定义，非常简单，但是可能比较绕，懂了这几个定义，下面的算法就是小菜一碟了。

基于密度的几个概念

$\varepsilon -$ 邻域：

对 $x_j \in D$ ，其 $\varepsilon -$ 邻域是指样本集 $D$ 中与 $x_j$ 距离不大于 $\varepsilon$ 的样本，即 $N_{\varepsilon}(x_j) = \left \{ x_j \in D | dist(x_i,x_j) \leq \varepsilon \right \}$

核心对象：

对象 $x_j$ 的 $\varepsilon -$ 邻域中至少包含 $MinPts$ 个样本，即 $N_{\varepsilon}(x_j) \geq MinPts$ ，则称 $x_j$ 为核心对象。

密度直达：

若 $x_j$ 位于 $x_i$ 的 $\varepsilon -$ 邻域中，且 $x_i$ 是核心对象，则称 $x_j$ 由 $x_i$ 密度直达。

密度可达：

对 $x_j$ 与 $x_i$ ，存在样本序列 $p_1,p_2,...,p_n$ 且 $p_1 = x_j , p_n = x_i$ 且 $p_{i+1}$ 由 $p_{i}$ 密度直达，则称 $x_j$ 由 $x_i$ 密度可达。

其实这个概念本质上要求 $p_2,...,p_n$ 都是核心对象

密度相连：

对 $x_j$ 与 $x_i$ ，若存在 $x_k$ 使得 $x_j$ 与 $x_i$ 均由 $x_k$ 密度可达，则称 $x_j$ 由 $x_i$ 密度相连。

下图直观的表示了这几个概念

kmeans

基于上面的概念，可以定义DBSCAN算法里面的簇的定义

簇：由密度可达关系导出的最大的密度相连的样本集合。

因此实际上簇 $C \subseteq D$ 满足下面的两个条件：

连接性： $x_i \in C,x_j \in C \Rightarrow$ $x_i$ 与 $x_j$ 密度相连

最大性： $x_i \in C$ 且 $x_j$ 由 $x_i$ 密度可达 $\Rightarrow x_j \in C$

实际上就是核心对象以及与其密度可达的所有的点的集合

本质上相当于一些核心对象以及边界点组成了簇，簇中核心的点就是核心对象。

具体算法描述

实际上就是核心对象以及与其密度可达的所有的点的集合

输入

样本集 $D = \left \{ x_1,...,x_N \right \}$
邻域参数 $(\varepsilon, MinPts )$

算法流程

找出所有的核心对象，放入集合中 $\Omega$
初始化未访问的样本集合： $\Gamma = D$
$while( \Omega \neq \varnothing)$

$\Gamma_{old} = D$
随机选取一个核心对象 $o \in \Omega$ ，初始化 $Q = <o>$
$\Gamma = \Gamma \setminus \left \{ o \right \}$
$while( Q \neq \varnothing)$

从 $Q$ 中取出样本 $q$
$if (q$ 是核心对象 $)$

另 $\Delta = N_{\varepsilon}(q) \cap \Gamma$ ，即获取核心对象 $q$ 邻域内的点

将 $\Delta$ 内的点加入到 $Q$ 中
$\Gamma = \Gamma \setminus \Delta$
$end \quad if$
$end \quad while$
$k = k+1$ ,并且生成聚类簇 $C_k = \Gamma_{old} \setminus \Gamma$
$\Omega = \Omega \setminus C_k$
$end \quad while$

输出

簇划分 $C = \left \{ C_1,...,C_K \right \}$