深入理解mlxtend中的FP-Growth频繁模式挖掘算法-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00407/article/details/148508007

深入理解mlxtend中的FP-Growth频繁模式挖掘算法

mlxtend rasbt/mlxtend: 是一个用于 Python 数据科学与机器学习的库，提供了许多实用的工具和函数，以简化和加速数据科学的工作流程。适合对 Python 数据科学与机器学习有兴趣的人，特别是想快速实现一些常用机器学习算法和数据处理功能的人。项目地址: https://gitcode.com/gh_mirrors/ml/mlxtend

什么是FP-Growth算法

FP-Growth（Frequent Pattern Growth）是一种用于挖掘频繁项集的高效算法，由Jiawei Han等人在2000年提出。与传统的Apriori算法相比，FP-Growth通过构建FP树（Frequent Pattern Tree）数据结构，避免了生成候选项集的过程，从而显著提高了挖掘效率。

在mlxtend库中，fpgrowth函数实现了这一算法，特别适用于处理大型数据集。该算法在关联规则学习、购物篮分析等领域有着广泛应用。

FP-Growth算法核心原理

FP树结构

FP-Growth算法的核心在于构建FP树，这是一种压缩的数据结构，能够高效存储事务数据库中的频繁项信息。FP树通过以下方式工作：

首先扫描数据库，计算所有单项的支持度
根据最小支持度阈值筛选出频繁项
按支持度降序排列频繁项
再次扫描数据库，构建FP树

算法优势

相比Apriori算法，FP-Growth具有以下优势：

不需要生成候选项集，减少了计算量
采用分治策略，将挖掘任务分解为多个子任务
使用内存紧凑的FP树结构，适合处理大型数据集

在mlxtend中使用FP-Growth

数据准备

使用FP-Growth算法前，需要将事务数据转换为适合的格式。mlxtend提供了TransactionEncoder工具来完成这一转换：

import pandas as pd
from mlxtend.preprocessing import TransactionEncoder

dataset = [['Milk', 'Onion', 'Nutmeg', 'Kidney Beans', 'Eggs', 'Yogurt'],
           ['Dill', 'Onion', 'Nutmeg', 'Kidney Beans', 'Eggs', 'Yogurt'],
           ['Milk', 'Apple', 'Kidney Beans', 'Eggs'],
           ['Milk', 'Unicorn', 'Corn', 'Kidney Beans', 'Yogurt'],
           ['Corn', 'Onion', 'Onion', 'Kidney Beans', 'Ice cream', 'Eggs']]

te = TransactionEncoder()
te_ary = te.fit(dataset).transform(dataset)
df = pd.DataFrame(te_ary, columns=te.columns_)

转换后的数据是一个布尔DataFrame，每行代表一个事务，每列代表一个项，True表示该项出现在事务中。

挖掘频繁项集

使用fpgrowth函数挖掘频繁项集非常简单：

from mlxtend.frequent_patterns import fpgrowth

# 挖掘支持度≥60%的频繁项集
frequent_itemsets = fpgrowth(df, min_support=0.6, use_colnames=True)

参数说明：

min_support: 最小支持度阈值(0-1之间)
use_colnames: 是否使用项名称而非列索引

处理缺失数据

mlxtend的FP-Growth实现还支持处理包含缺失值的数据。当数据中存在缺失值时，算法会调整支持度计算方式：

对于单项：支持度 = (出现次数) / (总事务数 - 该项缺失的事务数)
对于多项集：支持度 = (同时出现的次数) / (总事务数 - 任意一项缺失的事务数)

这种处理方式提供了更真实的频率指示。

实际应用示例

让我们通过一个完整示例展示如何使用FP-Growth：

# 导入必要库
import pandas as pd
from mlxtend.preprocessing import TransactionEncoder
from mlxtend.frequent_patterns import fpgrowth

# 示例事务数据
transactions = [
    ['面包', '牛奶', '啤酒'],
    ['面包', '尿布', '啤酒', '鸡蛋'],
    ['牛奶', '尿布', '啤酒', '可乐'],
    ['面包', '牛奶', '尿布', '啤酒'],
    ['面包', '牛奶', '尿布', '可乐']
]

# 数据转换
te = TransactionEncoder()
te_ary = te.fit(transactions).transform(transactions)
df = pd.DataFrame(te_ary, columns=te.columns_)

# 挖掘频繁项集(最小支持度40%)
frequent_itemsets = fpgrowth(df, min_support=0.4, use_colnames=True)

# 查看结果
print(frequent_itemsets.sort_values('support', ascending=False))

输出将显示所有支持度≥40%的项集及其支持度，按支持度降序排列。