数据流频繁模式挖掘算法解析
在数据流频繁项集挖掘领域,存在多种算法以满足不同的需求和场景。下面将详细介绍几种常见的算法及其特点。
1. 全数据流挖掘算法
在最基本的频繁项集挖掘中,目标是找出整个数据流历史中支持度大于阈值 $\theta$ 的所有项集。但记录所有项集可能会超出可用内存,因此出现了一些近似技术。这些近似算法可分为产生假阳性结果和产生假阴性结果两类。
- 假阳性算法 :保证结果集包含所有真正的频繁模式,但可能包含一些额外的模式。
- 假阴性算法 :保证返回的每个模式都是频繁的,但可能无法检测到一些真正的频繁模式。
1.1 有损计数算法(Lossy Counting)
有损计数算法是一种假阳性算法,由 Manku 和 Motwani 提出。它使用用户定义的误差参数 $\epsilon$ 来控制结果集的质量。
-
算法原理 :
- 维护一个潜在频繁模式的前缀树 $T$。
- 当数据作为第 $k$ 个桶的一部分流入时,每个模式以元组 $\langle p, \hat{f}(p), err(p) \rangle$ 的形式记录,其中 $\hat{f}(p)$ 是模式 $p$ 自加入 $T$ 以来的出现次数,$err(p) = k - 1$ 是模式加入 $T$ 之前经过的桶数。
- 每个桶结束时对树进行修剪,如果 $\hat{f}(p) < i - er
超级会员免费看
订阅专栏 解锁全文
2118

被折叠的 条评论
为什么被折叠?



