15、数据流滑动窗口中项集近期出现情况的近似维护方法

数据流滑动窗口中项集近期出现情况的近似维护方法

1. 引言

在过去十年中,静态数据库中挖掘频繁项集的策略得到了广泛研究,如Apriori、DHP和FP - growth算法。近年来,数据流作为一种快速生成的无界数据元素序列,为收集数据源提供了动态环境。不过,挖掘数据流存在一些限制,比如只能对数据进行一次扫描,且挖掘过程需在有限的内存使用下完成。

由于无法完全存储数据流中的历史数据,因此需要一种能提供有精度保证的近似答案的方法。此前有基于哈希的方法,每个数据流中的项在哈希表中有各自的计数器列表,且计数器可被多个项共享,还有hCount算法用于维护数据流中的频繁项,支持项的插入和删除,且内存使用较少。Lossy - counting算法也是挖掘数据流频繁项集的代表方法,它通过误差容忍参数ε修剪支持度小于ε的模式,减少了内存使用,且能保证无漏判情况,每个模式的估计频率误差不超过给定的误差容忍参数。

然而,除了内存使用限制,时间敏感性也是挖掘数据流频繁项集的重要问题。随着时间推移,数据流中的知识可能快速变化。为捕捉数据的近期趋势,estDec算法对每个项集的旧出现情况进行衰减,以减少旧事务对频繁项集挖掘结果的影响。滑动窗口方法则定义当前滑动窗口由数据流中最近的w个事务组成,近期频繁项集就是从当前滑动窗口中挖掘出的频繁项集。但传统方法需维护当前滑动窗口中的所有事务,以消除超出窗口范围的事务对挖掘结果的影响。此外,还有时间敏感的滑动窗口方法,但当最小支持阈值降低时,基本块中频繁项集数量会大幅增加,导致表维护成本上升,算法执行效率下降。

为此,提出了频率变化点(FCP)方法来监控数据流中项集的近期出现情况,避免存储滑动窗口内的整个事务数据。该方法还进行了扩展,能有效发现近期

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值