28、数据流中的频繁模式挖掘:方法与应用

数据流中的频繁模式挖掘:方法与应用

在当今的大数据时代,数据流的频繁模式挖掘成为了一个重要的研究领域。由于数据的流式特性和无界性,使得频繁模式挖掘变得更加复杂。本文将介绍频繁模式挖掘的相关概念、不同类型的模式挖掘方法以及一些重要的算法。

1. 项集的测试条件与丢弃规则

对于项集 (I),如果满足以下条件,它将从时间窗口 ([0 : m]) 中被丢弃:
1. (I) 在 (m) 到 (n) 之间的每个单独时间窗口内的支持度必须低于 (\theta)。
2. (I) 在 (m) 到 (n) 之间的每个时间窗口子序列内的支持度必须低于 (\epsilon)。

2. 闭频繁项集和最大频繁项集

挖掘所有频繁项集(FI)的一种替代方法是寻找闭频繁项集(CFI)或最大频繁项集(MFI)。
- 闭频繁项集(CFI) :如果频繁项集 (I) 的每个真超集的支持度都小于 (I) 的支持度,即对于所有 (I’ \supset I),都有 (s(I’) < s(I)),则 (I) 是闭频繁项集。
- 最大频繁项集(MFI) :如果频繁项集 (I) 的每个真超集都不是频繁的,即对于所有 (I’ \supset I),都有 (s(I’) < \theta),则 (I) 是最大频繁项集。

MFI 位于频繁项集和非频繁项集的边界上,其数量通常比 FI 至少少一个数量级,因此可以节省大量内存。然而,无法从 MFI 集合中恢复 FI 集合,会导致信息丢失。CFI 的数量较多,虽然在内存消耗上的减少不如 MFI 显著,但 CFI 集合及其支持度可以

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值