27、数据挖掘中频繁项集发现的新方法

最新推荐文章于 2025-12-02 15:51:34 发布

julia4scientist

最新推荐文章于 2025-12-02 15:51:34 发布

阅读量15

点赞数

CC 4.0 BY-SA版权

分类专栏：数据仓库与知识发现探秘文章标签：数据挖掘频繁项集 Seq算法

本文链接：https://blog.youkuaiyun.com/julia4scientist/article/details/154420852

数据仓库与知识发现探秘专栏收录该内容

56 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

数据挖掘中频繁项集发现的新方法

1. 问题背景与现有算法分析

在数据挖掘领域，挖掘频繁项集是一个重要的任务。当处理数据库时，为了跟踪包含特定项集的事务数量，需要在主内存中分配计数器。然而，如果在读取数据库时检查的项集数量过多，可能会导致主内存无法容纳所有计数器，或者花费过多精力维护那些最终支持度低于阈值的项集。

现有的算法通常采用迭代的方式解决这个问题。它们每次只在主内存中保留集合的一个子集。具体来说，在每个迭代中，计算支持度的项集的基数是固定的。在知道每个项集的支持度后，执行剪枝阶段，去除那些支持度低于阈值的项集。在下一次迭代中，确定基数增加的项集的支持度。这些项集（称为候选集）是从上次迭代中找到的大项集识别出来的。部分算法在每次迭代时还需要对数据库进行一次读取，这决定了每次迭代中执行的 I/O 操作数量，而 I/O 操作从执行时间的角度来看是最昂贵的。