基于循环树状直方图的数据流滑动窗口缩减技术
1. 引言
在数据挖掘领域,数据预处理(如数据清洗和数据缩减)能显著提升整体挖掘效果,在数据流挖掘中尤为重要。数据流是连续的,挖掘通常基于滑动窗口,即只包含最新数据的窗口。为了让滑动窗口更有意义,其大小应尽可能大。因此,能有效缩减滑动窗口,同时保持数据分布近似表示、平滑异常值的技术,在数据流挖掘中至关重要。
缩减滑动窗口有诸多好处,比如能同时保留多个近似滑动窗口,用于相似性查询、变化挖掘查询等,有助于趋势分析和理解数据流动态。而且,在典型的流环境中,内存资源有限,数据缩减是实现多轮数据扫描查询处理的关键。
一个有效的滑动窗口缩减技术需满足以下特性:
- 缩减后的滑动窗口要在一定程度上保留原始数据的语义,以便能对缩减后的数据进行有意义的挖掘查询。
- 对于特定类型的查询,缩减结构的准确性应与查询位置无关,以支持自由查询。
- 该技术不应过度限制数据的钻取和汇总操作。
本文提出了一种基于直方图的技术,用于缩减滑动窗口并支持近似任意范围求和查询,满足上述所有特性。范围求和查询在数据流挖掘中很常见。与传统直方图不同,我们的直方图基于层次结构,节点包含预先计算的范围求和查询,通过近似(位节省)编码存储。这种结构直接支持任意范围求和查询的估计,其缩减效果源于树的叶子节点聚合(离散化)和用少于32位表示范围查询节省的位。树的层次越高,用于表示范围查询的位数越少。该结构是动态的,每次更新和查询回答的时间复杂度最多为对数级。此外,桶汇总能平滑数据,去除噪声,且该直方图的准确性较高。
目前,评估滑动窗口上近似任意范围查询的相关文献较少。现有方法大多基于直方图、小波、采样和草图等。一些方法