理解机器学习实战 --- FP-Growth算法高效发现频繁项集

最新推荐文章于 2024-08-16 21:42:05 发布

杨鑫newlfe

最新推荐文章于 2024-08-16 21:42:05 发布

阅读量551

点赞数

CC 4.0 BY-SA版权

分类专栏： Machine Learning 文章标签：机器学习实战 MachineLearning FP-Growth FP-Tree

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/u012965373/article/details/90693002

Machine Learning 专栏收录该内容

64 篇文章 ¥9.90 ¥99.00

订阅专栏

FP-Growth是一种改进的发现频繁项集的算法，它基于Apriori但采用FP树数据结构。算法包括构造FP树、生成条件模式基和递归构建条件FP树等步骤。优点在于速度快，避免了候选集生成，但会占用大量内存且FP树构建成本高。适用于标称型数据处理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

FP-growth算法介绍：

一种非常好的发现频繁项集的算法
基于Apriori算法构建，但是数据结构不同，使用叫做FP树的数据结构来存储集合。

FP-grouw算法原理：

基于数据集构造FP树

支持度：某一项类别出现的次数，可以理解为出现的频率。
非频繁项：某一项出现的次数小于一定次数，我们称之为非频繁项集。

步骤一：

1.遍历所有的数据集合，计算所有项的支持度。

2.丢弃非频繁项。

3.基于支持度降序排序所有的项。

4.所有的数据集合按照3得到的顺序重新整理

5.重新整理后，丢弃每个集合末尾非频现的项

步骤二：

6.读取每个集合插入FP树中，同时用一个头部链表数据结构维护相同的项，对于不同的项做一个索引。

步骤三：

条件模式基：头部链表中的某一点的前缀路径组合就是条件模式基，条件模式基的值取决于末尾节点的值。

1.对头部链表进行降序排序

2.对头部链表进行从小到遍历，得到条件模式基，同时获得一个频繁项集。

条件FP树：以条件模式基作为数据集构造的FP树叫做条件FP树。

3.条件模式基继续构造条件FP树，得到的频繁项集，和之前的频繁项组合起来，这是

了解本专栏

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

杨鑫newlfe 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。