一文搞懂DBSCAN：密度聚类算法原理、优缺点、应用场景与实战代码

原创于 2025-06-20 18:46:35 发布 · 1.2k 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #聚类 #机器学习 #DBSCAN #密度聚类 #python

集成学习——模型的评估与选择专栏收录该内容

15 篇文章

订阅专栏

该文章已生成可运行项目，

大家好，今天要给大家介绍一个超酷的聚类算法——DBSCAN（Density-Based Spatial Clustering of Applications with Noise）🤖。如果说 K-Means 是聚类界的"傻白甜"，那 DBSCAN 就是能应对各种复杂场景的"全能战士"！💪

🎯 什么是DBSCAN？

DBSCAN（Density-Based Spatial Clustering of Applications with Noise）是一种基于数据密度的聚类算法，由Martin Ester等人在1996年提出。它的核心思想是：“物以类聚”——高密度区域形成簇，低密度区域则是噪声。他的主要特征如下：
✅ 无需预设簇数 ✅ 能识别任意形状簇 ✅ 自带抗噪能力

📚 算法原理速成班

1. 核心概念

核心点：在半径 ε 内至少有 MinPts 个邻居的点（包括自身）。例：人群中周围站满亲友的人 👥 → 核心点。
边界点：位于核心点 ε 邻域内，但自身邻居数不足 MinPts 的点。例：核心点亲友中“孤僻”的朋友 🚶 → 边界点。
噪声点：既非核心点也非边界点的点。例：远离人群的独行者 ❌ → 噪声点。

2. 聚类过程

DBSCAN的聚类过程像探索未知岛屿🗺️：

随机选一个未访问点；
若为核心点 → 创建新簇，递归扩展所有密度可达点；
若为边界点/噪声点 → 暂时跳过；
重复至所有点被访问，未归类的点标记为噪声

流程图：

🌟 DBSCAN vs 其他聚类算法

🆚 与 K-Means 的世纪对决：

特性	DBSCAN	K-Means
簇形状	任意形状 🌈	必须是凸形（圆形） 🔵
噪声处理	自动识别 🗑️	强行分配 😢
簇数量	自动发现 🔍	需要预先指定 🔢
参数数量	2个（ε, MinPts） ✌️	1个（K） 🔢
高维数据	表现一般 📉	也一般 📉

🆚 与层次聚类的较量：

DBSCAN：计算快，适合大数据 ⚡
层次聚类：计算慢，但能得到树状图 🌳

💡 DBSCAN 的超能力与弱点

💪 优点：

发现任意形状簇 🌈
- 适合地理数据、图像分割等
自动识别噪声 🗑️
- 异常检测利器
不需要预设簇数量 🔍
- 避免 K-Means 的"玄学调参"
对离群点鲁棒 🛡️
- 不会被个别极端值影响

😢 弱点：

参数敏感 🎛️
- 不同的 ε 和 MinPts 可能导致完全不同的结果
高维灾难 📉
- 维度越高，密度估计越难
计算复杂度 💻
- 最坏 O(n²)，但可用空间索引优化
密度不均 🎭
- 对密度差异大的数据效果不佳

🌈 适用场景大赏

DBSCAN 最适合：

地理空间数据 🗺️
- 城市热点分析、POI 聚类
异常检测 🚨
- 信用卡欺诈、网络入侵检测
图像分割 🖼️
- 医学影像、卫星图像处理
流数据聚类 🌊
- 传感器网络、社交媒体数据

不适合：

密度差异大的数据 🎭
需要明确簇数量的场景 🔢
实时性要求高的系统 ⏱️

💻 代码实战：Python 实现

让我们用 Python 实现一个 DBSCAN 聚类，看看它如何处理复杂数据！👨💻

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_circles, make_blobs
from sklearn.cluster import DBSCAN
from sklearn.preprocessing import StandardScaler

# 1. 生成测试数据
# 创建两个嵌套圆环 + 随机噪声
X, y = make_circles(n_samples=300, factor=0.5, noise=0.05, random_state=42)
X = np.vstack([X, np.random.rand(30, 2) * 2 - 1])  # 添加噪声
y = np.hstack([y, [-1]*30])  # -1 表示噪声

# 2. 数据标准化
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# 3. 应用 DBSCAN
dbscan = DBSCAN(eps=0.3, min_samples=5)
clusters = dbscan.fit_predict(X_scaled)

# 4. 可视化结果
plt.figure(figsize=(10, 6))

# 绘制原始数据
plt.scatter(X[:, 0], X[:, 1], c='gray', alpha=0.3, label='原始数据')

# 绘制聚类结果
unique_labels = set(clusters)
colors = [plt.cm.Spectral(each) for each in np.linspace(0, 1, len(unique_labels))]

for k, col in zip(unique_labels, colors):
    if k == -1:
        # 噪声点用黑色表示
        col = [0, 0, 0, 1]
    
    class_member_mask = (clusters == k)
    xy = X[class_member_mask]
    plt.scatter(xy[:, 0], xy[:, 1], c=[col], label=f'簇 {k}' if k != -1 else '噪声')

plt.title('DBSCAN 聚类结果 (ε=0.3, MinPts=5)')
plt.legend()
plt.grid(True)
plt.show()

📊 运行结果分析：

两个嵌套圆环 🌀 被完美分离
随机噪声点 🗑️ 被标记为黑色
不同密度区域 🌈 被正确处理

🎯 参数调优秘籍

1、选择 ε 的魔法 🔮：
- 绘制 K-距离图（k-distance graph）
- 寻找"肘部"作为 ε 的值

# 计算 K-距离图
from sklearn.neighbors import NearestNeighbors

neighbors = NearestNeighbors(n_neighbors=5)
nbrs = neighbors.fit(X_scaled)
distances, indices = nbrs.kneighbors(X_scaled)

# 绘制第5近邻的距离（MinPts=5）
plt.figure(figsize=(8, 5))
plt.plot(sorted(distances[:, 4]), 'b-x')
plt.title('K-距离图 (k=5)')
plt.xlabel('点排序')
plt.ylabel('ε 值')
plt.grid(True)
plt.show()