一、概念
FP-Growth(Frequent Pattern Growth)算法是一种用于从事务数据库中挖掘频繁项集的高效算法。它是关联规则挖掘中的一种重要方法,能够在不产生候选项集的情况下找到频繁项集。FP-Growth算法通过构建一种称为FP-Tree(频繁模式树)的数据结构来实现这一目标。
二、原理
1. FP-Tree构建
FP-Growth算法的第一步是构建FP-Tree。FP-Tree是一种紧凑的数据结构,用于存储事务数据库中的频繁项集。构建FP-Tree的步骤如下:
- 扫描事务数据库:第一次扫描事务数据库,计算每个项的频次(支持度)。
- 移除不频繁项:根据预定义的最小支持度阈值,移除不频繁的项。
- 项排序:对每个事务中的项按照频次从高到低排序。
- 构建FP-Tree:第二次扫描事务数据库,将每个事务插入FP-Tree中。插入时,按照排序后的顺序插入,若树中已有相同前缀路径,则共享该路径。
2. 挖掘频繁项集
在构建好FP-Tree之后,FP-Growth算法通过递归地挖掘FP-Tree来找到所有频繁项集。具体步骤如下:
- 从FP-Tree中提取条件模式基:对于每个频繁项,提取其条件模式基(即包含该项的所有路径)。
- 构建条件FP-Tree:根据条件模式基,构建条件FP-Tree。
- 递归挖掘条件FP-Tree</

最低0.47元/天 解锁文章
1万+

被折叠的 条评论
为什么被折叠?



