高效挖掘频繁项集的方法与策略
1. 频繁模式挖掘概述
频繁模式挖掘可从不同类型的数据集中挖掘出多种模式。常见的有频繁项集挖掘、序列模式挖掘和结构化模式挖掘。
- 频繁项集挖掘:从事务或关系数据集中挖掘频繁项集,是市场篮分析等应用的基础。
- 序列模式挖掘:在序列数据集中搜索频繁子序列,可用于研究物品购买顺序,如顾客可能先买 PC,再买数码相机,最后买存储卡。
- 结构化模式挖掘:在结构化数据集中搜索频繁子结构,结构形式包括图、格、树、序列、集合等,是最通用的频繁模式挖掘形式。
2. Apriori 算法:基于候选生成的频繁项集挖掘
Apriori 算法是 1994 年由 R. Agrawal 和 R. Srikant 提出的经典算法,用于挖掘布尔关联规则的频繁项集。它采用逐层搜索的迭代方法,利用先验知识(Apriori 属性)减少搜索空间。
- Apriori 属性 :频繁项集的所有非空子集也必须是频繁的。若一个项集不满足最小支持度阈值,则其所有超集也不满足。
- 算法步骤 :
1. 第一步 :扫描数据库,找出频繁 1 - 项集 $L_1$。
2. 第二步 :对于 $k \geq 2$,使用 $L_{k - 1}$ 生成候选 $k$ - 项集 $C_k$,具体分为连接和剪枝两个操作:
- 连接操作 :将 $L_{k - 1}$ 与自身连接生成 $C_k$。
- 剪枝操作 :利
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



