机器学习面试必知：DBSCAN

最新推荐文章于 2025-08-12 13:46:57 发布

原创最新推荐文章于 2025-08-12 13:46:57 发布 · 1.8k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#DBSCAN #聚类

机器学习同时被 2 个专栏收录

39 篇文章

订阅专栏

面试

39 篇文章

订阅专栏

本文深入探讨了DBSCAN聚类算法，与Kmeans对比，DBSCAN无需预设聚类数量，擅长处理任意形状的稠密数据集，能同时识别异常点。但当数据密度不均或样本集过大时，其表现受限。

与传统的Kmeans相比，DBSCAN最大的不同就是不需要输入类别数k，最大的优势是可以发现任意形状的聚类簇。如果数据是稠密的，并且数据集不是凸的，那么DBSCAN就比Kmeans好用很多，如果数据不是稠密的，则不推荐用DBSCAN。

输入：样本集 $D=(x_{1},x_{2},...,x_{m})$ ,邻域数 $(ϵ,MinNum)(\epsilon,MinNum)$ ,样本距离度量方式

初始化核心对象集合 $Ω=∅\Omega=\varnothing$ ，初始化聚类簇数目k=0，初始化未访问样本集合 $Γ=D\Gamma=D$ ，簇划分 $C=∅C=\varnothing$
对于 $j = 1, 2, . . ., m$ ，按照下面的步骤找出所有核心对象：
. 通过距离度量方式，找到样本 $x_{j}$ 的 $ϵ\epsilon$ -邻域子样本集 $Nϵ(xj)N_{\epsilon}(x_{j})$
. 如果子样本集样本个数满足 $∣Nϵ(xj)∣≥MinNum|N_{\epsilon}(x_{j})|\geq MinNum$ ，那么将样本 $x_{j}$ 加入核心对象样本集合 $Ω=Ω∪{xj}\Omega=\Omega \cup \left\{ x_{j}\right\}$
如果核心对象集合 $Ω=∅\Omega=\varnothing$ 则算法结束，否则转入下一步
在核心对象集合 $Ω\Omega$ 中，随机选择一个核心对象 $o$ ，初始化当前簇核心对象队列 $Ωcur={o}\Omega _{cur}=\left\{ o \right\}$ ，初始化类别序号k=k+1，初始化当前簇样本集合 $_{k}=\left\{o\right\}$ ，更新未访问样本集合 $Γ=Γ−{o}\Gamma=\Gamma-\left\{o\right\}$
如果当前簇核心队列 $Ωcur=∅\Omega _{cur}=\varnothing$ ，则当前聚类簇 $C_{k}$ 生成完毕，更新簇划分 $C={C1,C2,...,Ck}C=\left\{C_{1},C_{2},...,C_{k}\right\}$ ，更新对象集合 $Ω=Ω−Ck\Omega=\Omega-C_{k}$ ，转入步骤3
在当前簇核心队列取出一个核心对象 $o^{'}$ ，通过邻域距离阈值 $ϵ\epsilon$ 找出所有的邻域子样本集 $Nϵ(o′)N_{\epsilon}(o')$ ，令 $Δ=Nϵ(o′)∩Γ\Delta =N_{\epsilon}(o')\cap \Gamma$ 那么 $Ck=Ck∪Δ,Γ=Γ−Δ,Ωcur=Ωcur∪(Δ∩Ω)−o′C_{k}=C_{k}\cup \Delta,\Gamma=\Gamma-\Delta,\Omega _{cur}=\Omega _{cur}\cup (\Delta \cap \Omega)-o'$ ，转到步骤5

输出：簇划分 $C={C1,C2,...,Ck}C=\left\{C_{1},C_{2},...,C_{k}\right\}$