【机器学习】机器学习的基本分类-无监督学习-DBSCAN (Density-Based Spatial Clustering of Applications with Noise)

最新推荐文章于 2025-06-15 19:01:14 发布

原创最新推荐文章于 2025-06-15 19:01:14 发布 · 745 阅读

20 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #分类 #学习 #人工智能

人工智能同时被 2 个专栏收录

121 篇文章

订阅专栏

机器学习

104 篇文章

订阅专栏

DBSCAN (Density-Based Spatial Clustering of Applications with Noise)

DBSCAN 是一种基于密度的聚类算法，能够发现任意形状的簇，并有效识别噪声点。它通过数据点的密度分布来定义簇，避免了指定簇数量 k 的需求。

1. 算法简介

基本概念

核心点 (Core Point)：
- 在半径 $\varepsilon$ 内包含至少 $MinPts$ 个点的点。
边界点 (Border Point)：
- 在 $\varepsilon$ 半径内点数不足 $MinPts$ ，但位于核心点的 $\varepsilon$ -邻域内的点。
噪声点 (Noise Point)：
- 既不是核心点也不是边界点的点。

参数

$\varepsilon$ (Epsilon)：定义一个点的邻域半径。
$MinPts$ ：一个点被定义为核心点所需的最少点数（包括点自身）。

聚类过程

如果一个点是核心点，聚类算法将其 $\varepsilon$ -邻域内的所有点归为同一个簇。
重复直到没有新的点可以加入。
未分配到任何簇的点被标记为噪声。

2. 算法步骤

初始化：
- 设置 $\varepsilon$ 和 $MinPts$ 参数。
- 标记所有点为未访问。
从未访问点开始遍历：
- 如果某点未访问，计算其 $\varepsilon$ -邻域点。
- 如果邻域点数量 $\geq MinPts$ ，将该点标记为核心点，形成新簇。
- 否则，将其标记为噪声点。
扩展簇：
- 对新簇中所有核心点的邻域点进行扩展，合并到当前簇。
终止条件：
- 直到所有点都被访问。

3. 特点

优点

无需预设簇数量 k：适用于对簇数未知的问题。
可识别任意形状簇：适用于非凸形状的聚类。
鲁棒性强：对噪声点和异常值不敏感。

缺点

参数敏感： $\varepsilon$ 和 $MinPts$ 参数需要调试，选择不当会显著影响结果。
高维数据表现不佳：密度的定义在高维空间中变得不明显。
计算复杂度高：尤其是大数据集，计算 $\varepsilon$ -邻域的代价较高

4. 参数选择方法

$\varepsilon$ 的选择：
- 使用 k-距离图 (k-distance plot)：对数据点计算最近 $k = MinPt$ -邻居距离，选择“肘部”点作为 $\varepsilon$ 。
$MinPts$ 的选择：
- 通常设定为数据集维度的两倍。例如，对于二维数据， $MinPts = 4$ 是常见选择。

5. DBSCAN 的实现

Python 实现（使用 `scikit-learn`）

from sklearn.cluster import DBSCAN
from sklearn.datasets import make_moons
import matplotlib.pyplot as plt

# 生成数据
X, _ = make_moons(n_samples=300, noise=0.05, random_state=42)

# DBSCAN 聚类
dbscan = DBSCAN(eps=0.2, min_samples=5)
clusters = dbscan.fit_predict(X)

# 可视化结果
plt.scatter(X[:, 0], X[:, 1], c=clusters, cmap='viridis', s=50)
plt.title('DBSCAN Clustering')
plt.show()

6. 应用场景

地理空间分析：
- 识别地震震中、热点区域等。
图像处理：
- 分割图像中的像素点簇。
市场分析：
- 识别异常交易行为。
文本分析：
- 文本嵌入后的聚类。

7. 评价指标

轮廓系数 (Silhouette Coefficient)：

衡量聚类的紧密性和分离性：

$s = \frac{b - a}{\max(a, b)}$

a：样本点到同簇内其他点的平均距离。
b：样本点到最近簇内点的平均距离。

噪声点的影响：

观察算法将多少数据点标记为噪声，评估 $\varepsilon$ 和 $MinPts$ 的合理性。

8. DBSCAN 与其他算法对比

特性	DBSCAN	K-Means	层次聚类
簇数量	自动确定	需预设	可自动生成
簇形状	任意形状	仅适用凸簇	任意形状
噪声处理	能识别噪声	对噪声敏感	对噪声敏感
扩展性	中等	高	较差