农业气象数据中频繁模式的挖掘与TrieMotif算法
在当今的数据时代,数据库研究人员面临着一个重要问题:如何充分利用众多环境和系统中大量传感器每天产生的海量数据。这些传感器收集的信息通常存储在时间序列数据库中,对于数据所有者来说,这是进行决策的宝贵资源。而在挖掘时间序列数据时,一项核心任务就是找出其中频繁出现的模式,即 motifs。
1. 研究背景与意义
“食品安全”问题已经引起了多个国家政府的关注。由于气候变化的影响,精确监测农业变得尤为重要。在这种情况下,开发新的监测技术至关重要。发现时间序列中频繁出现的未知模式(motifs)是挖掘收集到的数据的核心任务。
以从遥感图像中提取的包含归一化植被指数(NDVI)测量值的时间序列为例,NDVI 时间序列反映了种植园的植被强度。在巴西,跟踪作物的生长对于农业企业的实践具有战略意义,因为农业是该国的主要资产。而且,全球范围内精确监测农业由于气候变化的影响变得越来越重要。“食品安全”问题促使各国政府重视,开发新的监测技术以及提出缓解和适应措施至关重要。在这方面,遥感可以成为快速检测土地覆盖变化和监测作物周期的重要工具。
随着时间序列数据库的规模和序列长度的快速增长,开发能够处理大数据场景下时间序列的算法和方法迫在眉睫。本文介绍了 TrieMotif 方法,它能够快速准确地发现时间序列中的 motifs,并且在大型时间序列上表现出色,比现有技术快达 3 倍。
2. 相关概念与定义
- 时间序列 :时间序列 T = t1, …, tm 是 m 个实值变量的有序集合。
- 子序列
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



