88、大规模时空数据集的可扩展两步数据挖掘技术

最新推荐文章于 2025-11-12 21:29:05 发布

m0n1o2p

最新推荐文章于 2025-11-12 21:29:05 发布

阅读量57

点赞数

CC 4.0 BY-SA版权

分类专栏：智能信息与工程系统前沿文章标签：时空数据挖掘两步聚类策略 CURE算法

本文链接：https://blog.youkuaiyun.com/m0n1o2p/article/details/149376626

智能信息与工程系统前沿专栏收录该内容

99 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

大规模时空数据集的可扩展两步数据挖掘技术

1. 引言

聚类是数据挖掘中的基本技术之一，它基于对象及其关系的信息对数据对象进行分组，目标是优化对象组内的相似性和组间的差异性，以识别底层数据中的有趣结构。然而，聚类过程仍存在一些未解决的问题，例如：
- 优化的聚类数量。
- 给定聚类的有效性。
- 获取不同形状和大小的聚类（而非根据距离度量函数强制为球形）。
- 在给定数据集中找到合适的聚类结构。

聚类算法主要分为分区和层次方法两类。不同的聚类概念有不同的目标和评估标准。分区方法是将对象划分为 k 个组，并在组间迭代交换对象，直到无法改进；层次聚类则是自下而上进行，假设对象构成初始聚类，然后迭代合并最接近的对，直到聚类质量不再提高。常见的算法有 BIRCH、CURE 和 C2P 等。基于密度的方法倾向于将彼此接近的对象聚类，并将其与低密度区域分开，如 DBSCAN 和 OPTICS 算法。

但这些流行的算法不能直接应用于非常大的时空数据集。因为时空约束给数据集带来了高度的结构，阻碍了大多数传统数据挖掘算法发现其中的模型。虽然在发现数据中的空间或时间模型方面已经做了很多工作，但在挖掘时空数据方面的工作还很少。一些传统方法的改进虽然被提出用于聚类相似轨迹的对象，但计算成本高，且无法处理数据的分布式和异构性。

因此，提出了一种新的方法来挖掘非常大的时空数据集。由于原始数据集太大，任何算法都难以处理，所以想法是通过生成数据集的较小表示来减少数据量，而不是压缩数据再解压使用。该方法利用时空数据中物理和时间上接近的对象往往“相似”这一特点，采用两步策略，先根据数据对象的相似度分组，再使用不同的聚类技术对这些组进行聚类。