88、大规模时空数据集的可扩展两步数据挖掘技术

大规模时空数据集的可扩展两步数据挖掘技术

1. 引言

聚类是数据挖掘中的基本技术之一,它基于对象及其关系的信息对数据对象进行分组,目标是优化对象组内的相似性和组间的差异性,以识别底层数据中的有趣结构。然而,聚类过程仍存在一些未解决的问题,例如:
- 优化的聚类数量。
- 给定聚类的有效性。
- 获取不同形状和大小的聚类(而非根据距离度量函数强制为球形)。
- 在给定数据集中找到合适的聚类结构。

聚类算法主要分为分区和层次方法两类。不同的聚类概念有不同的目标和评估标准。分区方法是将对象划分为 k 个组,并在组间迭代交换对象,直到无法改进;层次聚类则是自下而上进行,假设对象构成初始聚类,然后迭代合并最接近的对,直到聚类质量不再提高。常见的算法有 BIRCH、CURE 和 C2P 等。基于密度的方法倾向于将彼此接近的对象聚类,并将其与低密度区域分开,如 DBSCAN 和 OPTICS 算法。

但这些流行的算法不能直接应用于非常大的时空数据集。因为时空约束给数据集带来了高度的结构,阻碍了大多数传统数据挖掘算法发现其中的模型。虽然在发现数据中的空间或时间模型方面已经做了很多工作,但在挖掘时空数据方面的工作还很少。一些传统方法的改进虽然被提出用于聚类相似轨迹的对象,但计算成本高,且无法处理数据的分布式和异构性。

因此,提出了一种新的方法来挖掘非常大的时空数据集。由于原始数据集太大,任何算法都难以处理,所以想法是通过生成数据集的较小表示来减少数据量,而不是压缩数据再解压使用。该方法利用时空数据中物理和时间上接近的对象往往“相似”这一特点,采用两步策略,先根据数据对象的相似度分组,再使用不同的聚类技术对这些组进行聚类。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值