数据流中的频繁模式挖掘:方法与应用
在当今的大数据时代,数据流的频繁模式挖掘成为了一个重要的研究领域。由于数据的流式特性和无界性,使得频繁模式挖掘变得更加复杂。本文将介绍频繁模式挖掘的相关概念、不同类型的模式挖掘方法以及一些重要的算法。
1. 项集的测试条件与丢弃规则
对于项集 (I),如果满足以下条件,它将从时间窗口 ([0 : m]) 中被丢弃:
1. (I) 在 (m) 到 (n) 之间的每个单独时间窗口内的支持度必须低于 (\theta)。
2. (I) 在 (m) 到 (n) 之间的每个时间窗口子序列内的支持度必须低于 (\epsilon)。
2. 闭频繁项集和最大频繁项集
挖掘所有频繁项集(FI)的一种替代方法是寻找闭频繁项集(CFI)或最大频繁项集(MFI)。
- 闭频繁项集(CFI) :如果频繁项集 (I) 的每个真超集的支持度都小于 (I) 的支持度,即对于所有 (I’ \supset I),都有 (s(I’) < s(I)),则 (I) 是闭频繁项集。
- 最大频繁项集(MFI) :如果频繁项集 (I) 的每个真超集都不是频繁的,即对于所有 (I’ \supset I),都有 (s(I’) < \theta),则 (I) 是最大频繁项集。
MFI 位于频繁项集和非频繁项集的边界上,其数量通常比 FI 至少少一个数量级,因此可以节省大量内存。然而,无法从 MFI 集合中恢复 FI 集合,会导致信息丢失。CFI 的数量较多,虽然在内存消耗上的减少不如 MFI 显著,但 CFI 集合及其支持度可以
超级会员免费看
订阅专栏 解锁全文
1566

被折叠的 条评论
为什么被折叠?



