数据聚类与分区优化方法深度解析
1. 最优分区搜索
在处理数据集时,我们常常需要找到一种最优的分区方式,以更好地理解数据的结构和特征。首先,我们定义 MinPts := ⌊log |A|⌋ ,对于数据集中的每个点 a ,我们设定 ϵa > 0 为以 a 为中心且包含至少 MinPts 个数据点的最小球的半径。所有这些半径构成集合 E(A) = {ϵa : a ∈ A} 。
我们的目标是确定一个通用半径 ϵ(A) ,使得对于每个点 a ,以 a 为中心、半径为 ϵ(A) 的球至少包含 MinPts 个数据点。但我们并不要求这个条件对所有点都成立,即不考虑那些需要极大半径的点。研究表明,选择 E(A) 的 99% 分位数作为 ϵ(A) 能得到较好的结果,这个 99% 分位数被称为集合 A 的 ϵ - 密度,记为 ϵ(A) 。
例如,对于一个特定的数据集,我们可以按照以下步骤计算 ϵ(A) :
1. 确定 MinPts 的值,如 MinPts = ⌊log |A|⌋ = 8 。
2. 绘制数据集
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



