[数据挖掘概念核技术]5.2.1 Apriori

本文介绍Apriori算法的工作原理,该算法通过递推方式发现频繁项集。首先利用k-1项的频繁子集生成k项的候选集,再通过剪枝步骤去除不可能成为频繁项的候选集。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

主要采用递推(level-wise)的方式 用L(k-1)发现L(k),即已知k-1 item的频繁子集,发现k item的频繁子集。 规则:all nonempty subsets of a frequent itemset must also be frequent.

如果I不满足min_sup,即P(I) < min_sup,那么I+A必然不满足min_sup,即P(I+A) < min_sup,所以I+A肯定是不频繁的。所以,如果L(K)是频繁的,那么所有的L(k-1)都是频繁的。

主要分成两步:

1. the join step 已有L(k-1),P(i)为L(k-1)的第i个元组,P(i,j)表示第i个元组的第j个元素。假定元组以及每个元组的元素按照字典顺序排列。那么合并规则就是如果前k-2个元素相同,最后一个元素不同,那么这两个元组合并。P(1,1)=P(2,1) P(1,2)=P(2,2)…..P(1,k-2)=P(2,k-2) P(1,k-1)!=P(1,k-1),则合并P(1) P(2)形成C(k)

2. the prune step C(k)为所有可能的k-item,其中有些元组是不满足min_sup的,根据规则,c为C(k)的k-item,subset(c,k-1)为c的k-1 item子集,如果有一个subset(c,k-1)不属于L(k-1),那么c就不是频繁集,将c从C(k)中剔除。最后形成L(k)

给出一个例子以及apriori的伪代码。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值