【机器学习】聚类算法之密度聚类(DBSCAN)

最新推荐文章于 2025-10-06 11:15:08 发布

原创

最新推荐文章于 2025-10-06 11:15:08 发布 · 2.5k 阅读

10 ·

CC 4.0 BY-SA版权

DBSCAN是一种基于密度的聚类算法，能够发现任意形状的聚类簇，尤其适合非球状结构的数据集。算法将点分为核心点、边界点和噪音点，通过密度直达、密度可达和密度相连的概念来构建聚类。DBSCAN不需要预设类别数量，其主要优点是能处理任意形状的簇和异常点，但对密度不均匀的数据集和大规模数据聚类效率较低，且参数调整较为关键。

一、概述

一般基于距离的聚类算法(如K-Means)的聚类结果是球状的簇，当数据集中的聚类结果是非球状结构时，基于距离的聚类算法的聚类效果并不好。
与基于距离的聚类算法不同的是，基于密度的聚类算法可以发现任意形状的聚类。
在基于密度的聚类算法中，通过在数据集中寻找被低密度区域分离的高密度区域，将分离出的高密度区域作为一个独立的类别。
DBSCAN（Density-Based Spatial Clustering of Applications with Noise，具有噪声的基于密度的聚类方法）是一种基于密度的空间聚类算法。该算法将具有足够密度的区域划分为簇，并在具有噪声的数据中发现任意形状的簇，它将簇定义为密度相连的点的最大集合。

二、DBSCAN算法原理

在DBSCAN算法中将数据点分为三类：
- 核心点：若样本 $x_i$ 的 $ε$ 邻域内包含的样本数大于等于 $M i n P t s$ ，即 $N_ε (x_i )≥MinPts$ , 则称样本点 $x_i$ 为核心点,其中 $ε$ 和 $M i n P t s$ 是预先设置好的值。
- 边界点：若样本 $x_i$ 的 $ε$ 邻域内包含的样本数目小于 $M i n P t s$ ，但是它在其他核心点的邻域内，则称样本点 $x_i$ 为边界点
- 噪音点：既不是核心点也不是边界点的点
相关概念：
- 密度直达：若样本 $x$ 是核心点并且 $y$ 落 $x$ 的 $ε$ 邻域内,则称样本点 $y$ 是由样本点 $x$ 密度直达的
- 密度可达：如果存在一系列的样本点 $p_1,…,p_n$