大规模时空数据集的可扩展两步数据挖掘技术
1. 引言
聚类是数据挖掘中的基本技术之一,它基于对象及其关系的信息对数据对象进行分组,目标是优化对象组内的相似性和组间的差异性,以识别底层数据中的有趣结构。然而,聚类过程仍存在一些未解决的问题,例如:
- 优化的聚类数量。
- 给定聚类的有效性。
- 获取不同形状和大小的聚类(而非根据距离度量函数强制为球形)。
- 在给定数据集中找到合适的聚类结构。
聚类算法主要分为分区和层次方法两类。不同的聚类概念有不同的目标和评估标准。分区方法是将对象划分为 k 个组,并在组间迭代交换对象,直到无法改进;层次聚类则是自下而上进行,假设对象构成初始聚类,然后迭代合并最接近的对,直到聚类质量不再提高。常见的算法有 BIRCH、CURE 和 C2P 等。基于密度的方法倾向于将彼此接近的对象聚类,并将其与低密度区域分开,如 DBSCAN 和 OPTICS 算法。
但这些流行的算法不能直接应用于非常大的时空数据集。因为时空约束给数据集带来了高度的结构,阻碍了大多数传统数据挖掘算法发现其中的模型。虽然在发现数据中的空间或时间模型方面已经做了很多工作,但在挖掘时空数据方面的工作还很少。一些传统方法的改进虽然被提出用于聚类相似轨迹的对象,但计算成本高,且无法处理数据的分布式和异构性。
因此,提出了一种新的方法来挖掘非常大的时空数据集。由于原始数据集太大,任何算法都难以处理,所以想法是通过生成数据集的较小表示来减少数据量,而不是压缩数据再解压使用。该方法利用时空数据中物理和时间上接近的对象往往“相似”这一特点,采用两步策略,先根据数据对象的相似度分组,再使用不同的聚类技术对这些组进行聚类。