【机器学习】密度聚类算法之HDBSCAN

本文介绍了HDBSCAN算法,一种结合DBSCAN与层次聚类的密度基空间聚类方法。HDBSCAN通过空间变换、最小生成树构建、聚类树压缩和簇提取等步骤,能发现不同密度的聚类并具有更好的参数选择鲁棒性。文章详细阐述了算法的每个阶段,包括核心距离、互达距离的概念,以及如何通过最小生成树构建聚类层次结构。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

链接

一、概述

  • 先看一下HDBSCAN的具体定义:HDBSCAN – Hierarchical Density-Based Spatial Clustering of Applications with Noise. Performs DBSCAN over varying epsilon values and integrates the result to find a clustering that gives the best stability over epsilon. This allows HDBSCAN to find clusters of varying densities (unlike DBSCAN), and be more robust to parameter selection.
  • 可以知道是DBSCAN算法与基于层次聚类算法结合而来的,其实HDBSCAN算法是对OPTICS算法的一种改进。

  • HDBSCAN算法的具体过程分为以下几步
    • 空间变换
    • 构建最小生成树
    • 构建聚类层次结构(聚类树)
    • 压缩聚类树
    • 提取簇

二、空间变换

  • 核心距离:我们将样本与第k个最近邻样本点的距离称为核心距离,并表示为 c o r e k ( x ) core_k (x) corek(x)
    c o r e k ( x ) = d ( x , N k ( x ) ) core_k (x)=d(x,N^k (x)) corek(x)=d(x,Nk(x))
  • 互达距离:两个样本点的互达距离定义为: d m r e a c h − k ( a , b ) = m a x { c o r e k ( a ) , c o r e k ( b ) , d ( a , b ) } d_{mreach-k} (a,b)=max \{core_k (a),core_k (b),d(a,b)\} dmreachk(a,b)=max{ corek(a),corek
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值