实时空间大数据的数据流分区:创新方法与性能评估
1. 引言
近年来,对实时空间数据的需求不断增长。如今,我们所讨论的实时空间大数据能够处理大量的异构数据(可能达到 TB 级别)。然而,这也导致实时空间大数据可能会出现过载的情况,许多事务可能会错过其截止时间,因为数据检索过程非常耗时。为了加速查询处理,一些工作提出了许多优化技术,如数据分区。因此,将一个大表拆分为几个较小的单元是很有必要的。
传统的数据分区技术存在一些问题:
- 基于已知的表结构,无法对实时空间大数据中的未知数据库进行实时分区。
- 只能处理持久且稳定的工作负载,而实时空间大数据可能会过载,许多事务可能会错过截止时间,或者实时空间数据可能会被违反。
- 无法适应实时空间大数据中的高吞吐量。
我们研究了传统分区技术的局限性,并提出了一种新的方法来处理实时空间大数据中的流查询。这一贡献是对传统垂直分区的匹配算法的实现,它使用汉明距离来生成聚类。
2. 相关工作
2.1 系统概述
实时空间应用非常重要,这类应用会不断从移动对象(如道路网络中的移动车辆)接收大量的异构数据。实时空间数据的流特性带来了新的挑战,需要将实时空间大数据和数据流管理系统结合起来。
- 异构实时空间数据模型 :实时空间应用中存储的数据来自异构源,并以异构格式和结构进行维护。这些数据可分为结构化数据和非结构化数据:
- 结构化数据:可以由机器自动处理。
- 非结构化数据:这类数据来自不同的源,具有不同的格式,如文本、图片、多媒体内容或数字轨迹等,没有
实时空间大数据分区方法
超级会员免费看
订阅专栏 解锁全文
3576

被折叠的 条评论
为什么被折叠?



