什么是FP-growth频繁项集挖掘?

一、概念

        FP-Growth(Frequent Pattern Growth)算法是一种用于从事务数据库中挖掘频繁项集的高效算法。它是关联规则挖掘中的一种重要方法,能够在不产生候选项集的情况下找到频繁项集。FP-Growth算法通过构建一种称为FP-Tree(频繁模式树)的数据结构来实现这一目标。

二、原理

1. FP-Tree构建

        FP-Growth算法的第一步是构建FP-Tree。FP-Tree是一种紧凑的数据结构,用于存储事务数据库中的频繁项集。构建FP-Tree的步骤如下:

  1. 扫描事务数据库:第一次扫描事务数据库,计算每个项的频次(支持度)。
  2. 移除不频繁项:根据预定义的最小支持度阈值,移除不频繁的项。
  3. 项排序:对每个事务中的项按照频次从高到低排序。
  4. 构建FP-Tree:第二次扫描事务数据库,将每个事务插入FP-Tree中。插入时,按照排序后的顺序插入,若树中已有相同前缀路径,则共享该路径。

2. 挖掘频繁项集

        在构建好FP-Tree之后,FP-Growth算法通过递归地挖掘FP-Tree来找到所有频繁项集。具体步骤如下:

  1. 从FP-Tree中提取条件模式基:对于每个频繁项,提取其条件模式基(即包含该项的所有路径)。
  2. 构建条件FP-Tree:根据条件模式基,构建条件FP-Tree。
  3. 递归挖掘条件FP-Tree</
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值