【数据挖掘】关联规则之FP-growth算法

FP-growth算法作为一种高效的数据挖掘方法,避免了Apriori算法的候选产生过程。它通过构建FP树,对频繁项集进行压缩,然后递归挖掘。本文详细介绍了FP-growth的工作原理,包括其基本思路、构建FP树的过程以及如何从FP树中挖掘频繁项集,展示了该算法在降低搜索开销方面的优势。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

FP-growth算法


        Apriori算法可能受到两种非平凡开销的影响:一方面它可能需要产生大量候选项集;另一方面它可能需要重复的扫描整个数据库,通过模式匹配检查一个很大的候选集合。这样检查数据库中每个事务来确定候选项集支持度的开销很大。

        那么是否可以设计一种方法,挖掘全部频繁项集而无须这种代价昂贵的候选产生过程?一种试图这样做的方法称为频繁模式增长(Frequent-Pattern Growth,FP-growth)。它采取如下分治策略:首先,将代表频繁项集的数据库压缩到一颗频繁模式树(FP树),该树仍保留项集的关联信息。然后,把这种压缩后的数据库划分成一组条件数据库,每个数据库关联一个频繁项或模式段,并分别挖掘每个条件数据库。对于每个“模式片段”,只需要考察它相关联数据集。因此,随着被考察的模式的“增长”,这种方法可以显著地压缩被搜索的数据集的大小。

FP-growth算法的基本思路: 

  • 扫描一次事务数据库,找出频繁1-项集合,记为L,并把它们按支持度计数的降序进行排列。
  • 基于L,再扫描一次事务数据库,构造表示事务数据库中项集关联的FP树。
  • 在FP树上递归地找出所有频繁项集。
  • 最后在所有频繁项集中产生强关联规则。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

镰刀韭菜

看在我不断努力的份上,支持我吧

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值