20、可扩展的基于密度的分布式聚类算法解析

可扩展的基于密度的分布式聚类算法解析

1. 引言

在当今数据爆炸的时代,聚类分析在处理海量数据时变得越来越重要。传统的聚类应用要求所有数据集中在一个地方进行分析,但如今大量异构、复杂的数据分散存储在通过局域网或广域网连接的不同独立计算机上。例如,分布式移动网络、传感器网络、超市连锁店以及国际公司等场景,由于带宽限制、安全等原因,将所有数据传输到一个中央站点进行分析往往不可行。

为了解决这个问题,本文提出了一种可扩展的基于密度的分布式聚类算法(SDBDC)。该算法允许用户在聚类质量和从不同本地站点传输到全局服务器站点的对象数量之间进行自定义权衡。其基本思路是先在本地站点计算每个对象周围的密度,以确定其作为本地代表的适用性,然后将最合适的本地代表发送到服务器站点,使用增强的 DBSCAN 算法进行聚类,最后将结果返回给本地站点进行更新。

2. 相关工作

分布式数据挖掘(DDM)是数据库知识发现(KDD)领域中一个动态发展的领域,许多分布式数据挖掘算法基于并行数据挖掘算法开发。聚类是数据挖掘的主要任务之一,有多种不同范式的聚类算法,如基于密度和基于距离的算法,以及层次和划分算法。

目前已知的唯一基于密度的分布式聚类算法存在一些缺点。该算法基于 DBSCAN 算法,先在每个本地站点执行 DBSCAN 算法确定局部聚类,然后选择特殊核心点作为代表,最后在全局站点使用标准 DBSCAN 算法重建分布式聚类。虽然该算法在约 20%的数据点上进行全局聚类时能达到 90%以上的聚类质量,但存在以下三个问题:
- 忽略局部噪声 :在本地站点的聚类过程中忽略了局部噪声,导致无法检测到全局聚类。
- <

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值