高效空间数据密度聚类方法
1. 引言
随着各应用领域中空间数据量的急剧增长,如遥感、地理信息系统、天文学、计算机制图、环境评估与规划等,高效的空间数据挖掘方法变得至关重要。基于密度的聚类算法在大规模空间数据挖掘中得到了广泛应用。这类算法将属性对象划分为一组由低密度区域分隔的连通密集组件,把聚类视为对象的连通密集区域,该区域会沿着密度增加的方向扩展。
基于密度的方法主要有两种:
- DENCLUE 代表的方法 :利用密度函数(如阶跃函数或高斯函数)来度量属性度量空间中的密度,通过确定相应的密度吸引子来识别聚类。该算法借助网格单元技术,时间复杂度为 $O(n log n)$,但需要谨慎选择密度参数 σ 和噪声阈值 ξ,这些参数会显著影响聚类结果的质量。
- 基于密度连通性的方法 :计算所有数据点的密度,并根据密度连通性对它们进行分组。典型算法包括 DBSCAN 和 OPTICS。DBSCAN 先将核心对象定义为包含超过指定数量数据点的邻域点集,所有通过重叠核心对象链可达的数据点定义为一个聚类。使用空间索引时,其空间数据的时间复杂度为 $O(n log n)$,否则为 $O(n^2)$。OPTICS 可视为 DBSCAN 的扩展,它假设每个聚类都有自己的密度参数,并使用随机变量学习其概率分布,时间复杂度与 DBSCAN 相同。
然而,空间索引技术(如 R 树、R+ 树和网格单元)适用于低维数据集,在高维空间中表现不佳。本文提出了一种使用 EIN 环进行高效邻域搜索的独特方法,以及一种新的基于密度的高效聚类算法。核心思想是利用 Peano 树(P 树)和 EIN 环在平均 $O(n)$ 时间内
超级会员免费看
订阅专栏 解锁全文
2817

被折叠的 条评论
为什么被折叠?



