大数据时间序列分析与入侵检测的创新探索
1. 时间序列数据分析架构
在大数据时代,对时间序列数据进行分析并提前预测现象是一项重要任务。由于Spark的API在时间序列数据分析方面存在不足,因此提出了一种新的架构。该架构引入了Temporal RDD,结合Spark的RDD、数据框和数据集,以实现对时间序列数据的有效处理。这个架构具有多层结构,可用于数据表示和查询。
1.1 相关工作回顾
时间序列数据表示在小规模研究中已得到专业探讨,但在大数据领域,相关研究有限,仅有少数库和模型可用。以下是几种相关的方法:
- Spark - TS :作为Hadoop MapReduce的扩展,它是一个开源库,提供了处理、操作和建模时间序列数据的API,包含ARIMA、EWMA和GARCH等预测模型。不过,该库自2017年3月17日后就不再积极开发。
- Huohua :这是一个用于Spark的分布式时间序列分析框架,提供了分组、时间连接、汇总和聚合等功能。它提出了Time Series RDD,利用时间局部性实现快速分布式时间连接。但该框架已不再受支持,进化为新的Flint框架。
- Flint :基于Time Series RDD,增强了Spark在时间序列分析方面的功能。它提供了时间序列操作和建模功能,以及具有时间感知能力的时间序列数据框。
1.2 提出的架构
新架构将时间数据表示为Temporal RDD,具有多层结构:
- 底层 :基于Hadoop分布
超级会员免费看
订阅专栏 解锁全文
35

被折叠的 条评论
为什么被折叠?



