DBSCAN与PDBSCAN

DBSCAN是一种基于密度的聚类算法,通过density-reachable和density-connected关系找到任意形状的簇,并能过滤噪声。PDBSCAN是DBSCAN的并行版本,通过Hilbert曲线对图进行切分,使用R*树进行空间划分,并在多个计算节点上并行处理后再融合结果。核心思想是Directly density-reachable和density-reachable with respect to the space constraint S,用于判断簇是否可以融合。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

DBSCAN是一种图的任意形状聚类的方法

在聚类的同时,希望剔除噪音。

其中定义图中点之间的density-reachable、density-connected等关系,定义了eps-neighborhood的概念。并定义了一个cluster应该满足的条件

一个是极大性:这个cluster必须是最大的,也就是其不是任何其他的cluster子集

另一个是连通性:一个cluster中的元素之间都是density-connected。

其他的不属于任何一个cluster的点则认为是噪音。

 

算法采用随机选择起始点,然后进行广度搜索扩展cluster来实现。

 

PDBSCAN是DBSCAN的并行算法(PARALLEL CLUSTERING ALGORITHM)。

总体过程是:首先,对图进行一个切分的操作,之后再将各个子图送入各个计算机分别处理,再对结果进行整合。

1.图的切分

采用Hilbert curve来辅助进行图的切分工作。

 

图为1-order ,2-order,3-order hilbert curve在2D空间中的形状,将点按位置分配到空间中的各个hilbert curve中的点上。由于hilbert curve中相邻的index位置相邻,再将index分成与计算机数量等同个数的块,之后再分配到各个计算机中。此种划分方法保证相邻的点存储在同一台机器中。

(其中的data page不是很理解,还有R*tree的作用)

 

2.各个计算机分别使用DBSCAN对子图进行处理

 

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值