一般给定一个事务数据库,关联规则挖掘问题就是通过用户指定最小支持度(support)和最小可信度(confidence)来寻找强关联规则的过程。关联规则挖掘问题可以划分成两个子问题,第一,发现频繁项目集,第二,生成关联规则。
一,我讲的这部分是频繁项集的生成,之后还有生成关联规则的部分。Apriori算法是一种关联规则的频繁项算法。
二,它的核心思想是使用候选项集寻找频繁项集。Aprori算法使用一种称为逐层搜索的迭代方法,k-项集用于搜索(k+1)-项集。首先找出所有频繁1-项集L1,然后用L1寻找频繁2-项集L2,然后用L2寻找频繁3-项集L3,以此类推下去,直到不能找到频繁K-项集为终止。
三,Apriori算法的用途
可以用于消费市场价格分析,猜测顾客的消费习惯。
下面,我们可以来看一个关于Aprori算法的例子
| TID | Itemset |
|---|---|
| 1 | A,B,C,D |
| 2 | B,C,E |
| 3 | A,B,C,E |
| 4 | B,D,E |
| 5 | A,B,C,D |
其中minsup_count>=2
第一步:生成候选集并通过扫描数据库得到它们的支持数,C1={(A,3),(B,5),(C,4),(D,3),(E,3)},挑选minsup_count>=2的项目集组成1-频繁项集L1={A,B,C,D,E}.
第二步:由L1生

Apriori算法是关联规则挖掘中用于寻找频繁项集的算法。它采用逐层搜索的迭代方法,从1-项集开始,逐步生成更长的频繁项集,直到找不到满足最小支持度的项集为止。该算法可用于消费市场分析,揭示顾客消费习惯。通过实例展示了Apriori算法的执行过程,揭示其缺点在于产生大量候选集并可能多次扫描数据库。
最低0.47元/天 解锁文章
1万+

被折叠的 条评论
为什么被折叠?



