8、聚类分析：DBSCAN 算法与指标选择

生活碎片

于 2025-08-19 13:56:46 发布

阅读量46

点赞数

CC 4.0 BY-SA版权

分类专栏：聚类分析：从理论到应用文章标签： DBSCAN 聚类分析 Calinski-Harabasz指数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/uber9/article/details/151033187

聚类分析：从理论到应用专栏收录该内容

20 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

聚类分析：DBSCAN 算法与指标选择

1. 寻找最优分区

在进行数据聚类时，确定合适的分区至关重要。首先，我们需要定义一些关键参数。设数据集为 $A$，定义 $MinPts := ⌊log |A|⌋$，对于每个 $a \in A$，将 $\epsilon_a > 0$ 设为以 $a$ 为中心且包含集合 $A$ 中至少 $MinPts$ 个元素的最小球的半径。所有这样的半径构成集合 $E(A) = {\epsilon_a : a \in A}$。

我们希望确定一个通用半径 $\epsilon(A)$，使得对于每个 $a \in A$，以 $a$ 为中心、半径为 $\epsilon(A)$ 的球包含至少 $MinPts$ 个 $A$ 中的元素。但我们并不要求对所有点 $a \in A$ 都满足这一条件，即不考虑那些需要极大半径的点。研究表明，选择 $E(A)$ 的 99% 分位数作为 $\epsilon(A)$ 能得到较好的结果，这个 99% 分位数被称为集合 $A$ 的 $\epsilon$-密度，记为 $\epsilon(A)$。

例如，对于一个数据集，$MinPts = ⌊log |A|⌋ = 8$，通过计算 $E(A)$ 的 99% 分位数，我们可以得到 $\epsilon(A)$ 的值。$\epsilon$-密度可以使用 Mathematica 模块 $EPSILON[]$ 进行计算。

2. DBSCAN 算法

DBSCAN（Density-Based Spatial Clustering of Applications with Noise）算法是一种基于密度的聚类算法，下面介绍其相关概念和具体算法。

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。