DBSCAN聚类算法

一、DBSCAN简介

DBSCAN是一种基于密度的聚类算法,由Martin Ester等人在1996年提出(论文标题:《A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise》)。与K-Means等基于质心的聚类算法不同,DBSCAN通过识别数据点的“密度连接”区域来形成簇,能够发现任意形状的簇,并且对噪声点(异常点)具有鲁棒性。

核心思想

DBSCAN基于以下假设:

  • 数据集中存在高密度区域(簇),这些区域由低密度区域分隔。
  • 簇内的点在空间上是“密度可达”的,而噪声点则位于低密度区域。

DBSCAN不需要预先指定簇的数量(不像K-Means需要指定K),这使得它在处理未知数据集时非常灵活。


二、DBSCAN的核心概念

要理解DBSCAN的运作机制,首先需要掌握以下几个关键概念:

  1. 核心点(Core Point)

    • 如果一个数据点在其半径ϵ\epsilonϵ(Epsilon)范围内至少有MinPtsMinPtsMinPts(最小点数,包括自身)个点,则该点被称为核心点。
    • 数学定义:对于点ppp,如果∣Nϵ(p)∣≥MinPts|N_\epsilon(p)| \geq MinPtsNϵ(p)MinPts,其中Nϵ(p)={ q∈D∣dist(p,q)≤ϵ}N_\epsilon(p) = \{ q \in D | \text{dist}(p, q) \leq \epsilon \}Nϵ(p)={ qDdist(p,q)ϵ}是以ppp为中心、半径为ϵ\epsilonϵ的邻域,DDD是数据集。
  2. 边界点(Border Point)

    • 如果一个点在其半径ϵ\epsilonϵ范围内点的数量少于MinPtsMinPtsMinPts,但它位于某个核心点的ϵ\epsilonϵ邻域内,则该点被称为边界点。
    • 边界点不满足核心点的条件,但属于某个簇的边缘。
  3. 噪声点(Noise Point)

    • 既不是核心点也不是边界点的点,称为噪声点或异常点。这些点通常位于低密度区域,不属于任何簇。
  4. 直接密度可达(Directly Density-Reachable)

    • 如果点qqq在核心点pppϵ\epsilonϵ邻域内(即dist(p,q)≤ϵ\text{dist}(p, q) \leq \epsilondist(p,q)ϵ),且ppp是核心点,则qqqppp是直接密度可达的。
  5. 密度可达(Density-Reachable)

    • 如果存在一个点序列p1,p2,…,pnp_1, p_2, \dots, p_np1,p2,,pn,其中p1=pp_1 = pp1=ppn=qp_n = qpn=q,且每个pi+1p_{i+1}pi+1pip_ipi是直接密度可达的,则qqqppp是密度可达的。
  6. 密度连接(Density-Connected)

    • 如果点pppqqq都对某个核心点ooo是密度可达的,则pppqq
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

爱看烟花的码农

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值