深入理解HDBSCAN中的epsilon参数：结合DBSCAN优势实现密度聚类优化

原创于 2025-06-19 09:16:53 发布 · 693 阅读

CC 4.0 BY-SA版权

深入理解HDBSCAN中的epsilon参数：结合DBSCAN优势实现密度聚类优化

hdbscan 项目地址: https://gitcode.com/gh_mirrors/hd/hdbscan

引言

在密度聚类算法中，HDBSCAN作为DBSCAN的重要扩展，通过引入层次聚类思想和自动确定最优epsilon的能力，解决了传统DBSCAN在处理变密度数据集时的局限性。本文将深入探讨如何通过cluster_selection_epsilon参数，在HDBSCAN中巧妙结合DBSCAN的优势，实现更灵活的聚类效果。

DBSCAN与HDBSCAN核心差异

传统DBSCAN算法需要用户预先定义两个关键参数：

eps(epsilon)：定义邻域半径
min_samples：定义核心点所需的最小邻域点数

而HDBSCAN则通过以下创新解决了参数选择难题：

自动探索不同epsilon值下的聚类结构
仅需指定min_cluster_size(最小簇大小)一个参数
通过"Excess of Mass"(EOM)方法选择稳定性最高的聚类结果

实际应用场景分析

以共享出行服务的上下车位置聚类为例，数据集呈现以下特征：

火车站区域形成高密度大簇
沿街分布着多个低密度小簇(最小期望簇大小为4)
需要同时保留大小不等的有效簇

DBSCAN的局限性

固定epsilon=5米时：遗漏间距大于5米的低密度簇
增大epsilon时：沿街形成不合理的链式簇

纯HDBSCAN的不足

虽然能发现变密度簇
但在高密度区域(如火车站)产生过多微簇
调整min_cluster_size或min_samples会牺牲小簇

cluster_selection_epsilon的混合策略

HDBSCAN的cluster_selection_epsilon参数实现了两种算法的优势结合：

对于间距小于epsilon的数据分区：采用类似DBSCAN*的策略合并微簇
对于间距大于epsilon的数据分区：保留原始HDBSCAN的变密度聚类能力

参数设置示例（地理坐标数据）

import numpy as np
import hdbscan

# 将经纬度转换为弧度
coordinates = [...]  # 经纬度坐标列表
X = np.radians(coordinates)  

# 计算5米对应的epsilon阈值(以球面距离为单位)
earth_radius_km = 6371
epsilon = 0.005 / earth_radius_km  # 5米=0.005公里

# 创建HDBSCAN聚类器
clusterer = hdbscan.HDBSCAN(
    min_cluster_size=4,
    metric='haversine',  # 球面距离度量
    cluster_selection_epsilon=epsilon,
    cluster_selection_method='eom'
)
clusterer.fit(X)

效果对比

无epsilon约束的HDBSCAN：火车站区域产生过多微簇
带epsilon=5米的HDBSCAN：
- 保留所有有效小簇
- 合并火车站区域的邻近微簇
- 避免沿街形成链式簇

参数交互效应

与cluster_selection_method的关系：
- 当epsilon足够大时，'eom'和'leaf'方法结果趋同
- 较小epsilon时，'eom'基于稳定性可能合并更多簇
默认行为：
- cluster_selection_epsilon=0时完全退化为原始HDBSCAN
- 随着epsilon增大，逐渐增强DBSCAN*的特性