利用关联规则进行市场篮子分析:Apriori算法的应用
1. 关联规则基础
在实际场景中,我们可以通过分析交易数据库来发现其中的购买模式。以一家虚构医院礼品店的交易数据为例,如下表展示了5笔已完成的交易:
| 交易编号 | 购买物品 |
| ---- | ---- |
| 1 | {鲜花, 康复卡, 汽水} |
| 2 | {毛绒玩具熊, 鲜花, 气球, 糖果棒} |
| 3 | {康复卡, 糖果棒, 鲜花} |
| 4 | {毛绒玩具熊, 气球, 汽水} |
| 5 | {鲜花, 康复卡, 汽水} |
从这些购买记录中,我们可以推断出一些典型的购买模式。比如,看望生病朋友或家人的人倾向于购买康复卡和鲜花,而看望新生儿母亲的人则倾向于购买毛绒玩具熊和气球。这些模式之所以值得关注,是因为它们出现的频率足以引起我们的兴趣,并且可以通过一定的逻辑和经验来解释。
Apriori算法正是利用项集的“有趣性”统计指标,在更大的交易数据库中寻找关联规则。而判断关联规则是否有趣,主要由两个统计指标决定:支持度(support)和置信度(confidence)。
-
支持度 :衡量项集或规则在数据中出现的频率。对于项集$X$,其支持度可以通过以下公式计算:
[Support(X)=\frac{count(X)}{N}]
其中,$N$是数据库中的交易总数,$count(X)$是包含项集$X$的交易数量。例如,在医院礼品店数据中,项集{康复卡, 鲜花}的支持度为$3/5 = 0.6$,规则{康复卡} → {鲜花}的支持度同样为$0.6$;
超级会员免费看
订阅专栏 解锁全文
14

被折叠的 条评论
为什么被折叠?



