35、事务数据库中高效挖掘定期频繁模式

事务数据库中高效挖掘定期频繁模式

在事务数据库中挖掘频繁模式是数据挖掘领域的一个重要任务。传统的频繁模式挖掘方法主要关注模式的支持度,而忽略了模式出现的规律性。然而,在许多实际应用中,模式的规律性同样重要。本文将介绍一种新的定期频繁模式挖掘技术,该技术基于间隔时间的方差来衡量模式的规律性,并使用 RF-tree 来高效地挖掘这些模式。

1. 传统方法的局限性

在事务数据库中,传统的规律性衡量方法通常使用最大周期(maxPrd)。例如,考虑一个事务数据库,其中项集 $I = {A, B, C, D, E}$。对于模式 “AB”,它出现在事务编号 2、3、4 和 5 中,即 $T_{AB} = {2, 3, 4, 5}$。其周期分别为 2、1、1、1 和 4,规律性 $Reg(AB) = max(2, 1, 1, 1, 4) = 4$。如果用户指定的最大周期 $maxPrd = 3$,则 “AB” 不是一个规则模式。

然而,在许多实际应用中,模式很难毫无中断地定期出现。在有错误或噪声的环境中,使用 maxPrd 来计算规律性并不有效。例如,模式 “C” 出现在事务编号 2、5、6、7 和 9 中,即 $T_C = {2, 5, 6, 7, 9}$,其周期为 $P_C = {2, 3, 1, 1, 2, 0}$。对于 $maxPrd = 3$,模式 “C” 是一个规则模式。但如果由于错误或噪声,项 “C” 从事务编号 5 中删除,那么对于给定的 $maxPrd$,该模式将变得不规则。

2. 提出的模型

为了挖掘数据库中定期出现的频繁模式,我们提出了一种新的方法。对于时间规律性的衡量,我们使用模式出现之间的间隔时间的方差,而不是 maxPrd。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值