事务数据库中高效挖掘定期频繁模式
在事务数据库中挖掘频繁模式是数据挖掘领域的一个重要任务。传统的频繁模式挖掘方法主要关注模式的支持度,而忽略了模式出现的规律性。然而,在许多实际应用中,模式的规律性同样重要。本文将介绍一种新的定期频繁模式挖掘技术,该技术基于间隔时间的方差来衡量模式的规律性,并使用 RF-tree 来高效地挖掘这些模式。
1. 传统方法的局限性
在事务数据库中,传统的规律性衡量方法通常使用最大周期(maxPrd)。例如,考虑一个事务数据库,其中项集 $I = {A, B, C, D, E}$。对于模式 “AB”,它出现在事务编号 2、3、4 和 5 中,即 $T_{AB} = {2, 3, 4, 5}$。其周期分别为 2、1、1、1 和 4,规律性 $Reg(AB) = max(2, 1, 1, 1, 4) = 4$。如果用户指定的最大周期 $maxPrd = 3$,则 “AB” 不是一个规则模式。
然而,在许多实际应用中,模式很难毫无中断地定期出现。在有错误或噪声的环境中,使用 maxPrd 来计算规律性并不有效。例如,模式 “C” 出现在事务编号 2、5、6、7 和 9 中,即 $T_C = {2, 5, 6, 7, 9}$,其周期为 $P_C = {2, 3, 1, 1, 2, 0}$。对于 $maxPrd = 3$,模式 “C” 是一个规则模式。但如果由于错误或噪声,项 “C” 从事务编号 5 中删除,那么对于给定的 $maxPrd$,该模式将变得不规则。
2. 提出的模型
为了挖掘数据库中定期出现的频繁模式,我们提出了一种新的方法。对于时间规律性的衡量,我们使用模式出现之间的间隔时间的方差,而不是 maxPrd。
超级会员免费看
订阅专栏 解锁全文
1577

被折叠的 条评论
为什么被折叠?



