【机器学习】密度聚类算法之HDBSCAN

最新推荐文章于 2025-10-26 10:30:38 发布

原创

最新推荐文章于 2025-10-26 10:30:38 发布 · 置顶 · 1.3w 阅读

63 ·

CC 4.0 BY-SA版权

本文介绍了HDBSCAN算法，一种结合DBSCAN与层次聚类的密度基空间聚类方法。HDBSCAN通过空间变换、最小生成树构建、聚类树压缩和簇提取等步骤，能发现不同密度的聚类并具有更好的参数选择鲁棒性。文章详细阐述了算法的每个阶段，包括核心距离、互达距离的概念，以及如何通过最小生成树构建聚类层次结构。

链接

前导篇：【机器学习】聚类算法之密度聚类(DBSCAN)
前导篇：【机器学习】密度聚类算法之OPTICS
参考链接：https://hdbscan.readthedocs.io/en/latest/how_hdbscan_works.html
HDBSCAN API 使用参考链接：https://hdbscan.readthedocs.io/en/latest/api.html

一、概述

先看一下HDBSCAN的具体定义：HDBSCAN – Hierarchical Density-Based Spatial Clustering of Applications with Noise. Performs DBSCAN over varying epsilon values and integrates the result to find a clustering that gives the best stability over epsilon. This allows HDBSCAN to find clusters of varying densities (unlike DBSCAN), and be more robust to parameter selection.
可以知道是DBSCAN算法与基于层次聚类算法结合而来的，其实HDBSCAN算法是对OPTICS算法的一种改进。
HDBSCAN算法的具体过程分为以下几步
- 空间变换
- 构建最小生成树
- 构建聚类层次结构(聚类树)
- 压缩聚类树
- 提取簇

二、空间变换

核心距离：我们将样本与第k个最近邻样本点的距离称为核心距离，并表示为 $core_k (x)$ ：
$core_k (x)=d(x,N^k (x))$
互达距离:两个样本点的互达距离定义为： $d_{mreach-k} (a,b)=max \{core_k (a),core_k (b),d(a,b)\}$

最低0.47元/天解锁文章

8 条评论

m0_60522447 2021.08.01
截止到2021.08.01，这是我看到的众多资料中关于HDBSCAN算法讲得最清楚的中文文章！！！太赞了！
- 小吕布鑫爱貂蝉回复m0_60522447 2024.01.24
  和官方网站的不太一样，聚类簇那儿是减lamba(birth)而不是lamba(death)，不然最后的簇无法计算稳定性

K先森~ 2021.03.10
博主您好！请问经过【将树中的所有边按照距离递增排序、然后依次选取每条边，将边的链接的两个子图进行合并】两步骤为什么能够得到层次结构？？？两个子图合并是指怎样合并？
- 小吕布鑫爱貂蝉回复AE,86 2023.12.20
  同样的，卡在这一步上了
- AE,86回复K先森~ 2021.03.12
  我没看懂，可以交流下吗