21、高效挖掘频繁项集的方法与策略

高效挖掘频繁项集的方法与策略

1. 频繁模式挖掘概述

频繁模式挖掘可从不同类型的数据集中挖掘出多种模式。常见的有频繁项集挖掘、序列模式挖掘和结构化模式挖掘。
- 频繁项集挖掘:从事务或关系数据集中挖掘频繁项集,是市场篮分析等应用的基础。
- 序列模式挖掘:在序列数据集中搜索频繁子序列,可用于研究物品购买顺序,如顾客可能先买 PC,再买数码相机,最后买存储卡。
- 结构化模式挖掘:在结构化数据集中搜索频繁子结构,结构形式包括图、格、树、序列、集合等,是最通用的频繁模式挖掘形式。

2. Apriori 算法:基于候选生成的频繁项集挖掘

Apriori 算法是 1994 年由 R. Agrawal 和 R. Srikant 提出的经典算法,用于挖掘布尔关联规则的频繁项集。它采用逐层搜索的迭代方法,利用先验知识(Apriori 属性)减少搜索空间。
- Apriori 属性 :频繁项集的所有非空子集也必须是频繁的。若一个项集不满足最小支持度阈值,则其所有超集也不满足。
- 算法步骤
1. 第一步 :扫描数据库,找出频繁 1 - 项集 $L_1$。
2. 第二步 :对于 $k \geq 2$,使用 $L_{k - 1}$ 生成候选 $k$ - 项集 $C_k$,具体分为连接和剪枝两个操作:
- 连接操作 :将 $L_{k - 1}$ 与自身连接生成 $C_k$。
- 剪枝操作 :利

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值