一个例子入门
尿布与啤酒
据报道,美国中西部的一家连锁店发现,男人们会在周四购买尿布和啤酒。在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%~40%的人同时也为自己买一些啤酒。产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。这样商店实际上可以将尿布和啤酒放在一块,并确保在周四全价销售而获利。
概述
Apriori算法是数据挖掘中一种挖掘关联规则的频繁项集算法。
两个概念
关联规则:
关联规则是形如X→Y的蕴涵式,其中, X和Y分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS) 。其中,关联规则XY,存在支持度和信任度。
频繁项集 :
项的集合称为项集。包含k个项的项集称为k-项集。项集的出项频率是包含项集的事务数,简称为项集的频率,支持度计数或计数。注意,定义项集的支持度有时称为相对支持度,而出现的频率称为绝对支持度。如果项集I的相对支持度满足预定义的最小支持度阈值,则I是频繁项集。
两个参数
支持度(support):
事务出现的次数。有时用概率表示,有时用出现次数表示。例如:
![]()

Apriori算法是数据挖掘中的经典关联规则挖掘算法,主要用于发现数据集中的频繁项集和关联规则。通过逐层搜索和剪枝策略,找出满足最小支持度的频繁项集。尽管在大数据集上效率较低,但因其简单易实现,在数值型或标称型数据的关联分析中仍有广泛应用。以尿布与啤酒的经典案例作为示例,展示了Apriori如何挖掘有趣的购物行为模式。
最低0.47元/天 解锁文章
1204

被折叠的 条评论
为什么被折叠?



