27、数据流频繁模式挖掘算法解析

最新推荐文章于 2025-11-17 21:38:12 发布

深海孤鲸134

最新推荐文章于 2025-11-17 21:38:12 发布

阅读量9

点赞数

CC 4.0 BY-SA版权

分类专栏：挖掘数据背后的模式文章标签：数据流挖掘频繁模式有损计数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/grafana6viz/article/details/154889747

挖掘数据背后的模式专栏收录该内容

59 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

数据流频繁模式挖掘算法解析

在数据流频繁项集挖掘领域，存在多种算法以满足不同的需求和场景。下面将详细介绍几种常见的算法及其特点。

1. 全数据流挖掘算法

在最基本的频繁项集挖掘中，目标是找出整个数据流历史中支持度大于阈值 $\theta$ 的所有项集。但记录所有项集可能会超出可用内存，因此出现了一些近似技术。这些近似算法可分为产生假阳性结果和产生假阴性结果两类。

假阳性算法 ：保证结果集包含所有真正的频繁模式，但可能包含一些额外的模式。
假阴性算法 ：保证返回的每个模式都是频繁的，但可能无法检测到一些真正的频繁模式。

1.1 有损计数算法（Lossy Counting）

有损计数算法是一种假阳性算法，由 Manku 和 Motwani 提出。它使用用户定义的误差参数 $\epsilon$ 来控制结果集的质量。

算法原理 ：
- 维护一个潜在频繁模式的前缀树 $T$。
- 当数据作为第 $k$ 个桶的一部分流入时，每个模式以元组 $\langle p, \hat{f}(p), err(p) \rangle$ 的形式记录，其中 $\hat{f}(p)$ 是模式 $p$ 自加入 $T$ 以来的出现次数，$err(p) = k - 1$ 是模式加入 $T$ 之前经过的桶数。
- 每个桶结束时对树进行修剪，如果 $\hat{f}(p) < i - er

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。