利用关联规则进行市场篮分析:Apriori算法实战
1. 典型购买模式与Apriori算法概述
在日常购物中,我们常常能发现一些典型的购买模式。比如,去看望生病朋友或家人的人往往会购买康复卡和鲜花;而探望新生儿母亲的人则倾向于购买毛绒玩具熊和气球。这些模式频繁出现,通过简单的逻辑和经验就能解释背后的规律。
Apriori算法采用类似的思路,它借助项集“有趣性”的统计度量,在大规模事务数据库中寻找关联规则。为了判断关联规则是否有趣,有两个重要的统计指标:支持度(support)和置信度(confidence)。
- 支持度 :用于衡量项集或规则在数据中出现的频率。对于项集 $X$,其支持度的计算公式为:$support(X)=\frac{count(X)}{N}$,其中 $N$ 是数据库中的事务数量,$count(X)$ 是包含项集 $X$ 的事务数量。例如,在医院礼品店数据中,项集 {康复卡, 鲜花} 的支持度为 $3 / 5 = 0.6$,规则 {康复卡} → {鲜花} 的支持度同样是 $0.6$;项集 {糖果棒} 的支持度为 $2/5 = 0.4$,意味着糖果棒出现在 $40\%$ 的购买中。
- 置信度 :用于衡量规则的预测能力或准确性。规则 $X$ → $Y$ 的置信度定义为同时包含 $X$ 和 $Y$ 的项集的支持度除以仅包含 $X$ 的项集的支持度,即 $confidence(X→Y)=\frac{support(X\cup Y)}{support(X)}$。它表示在包含项或项集 $X$ 的事务中,同时包含项或项集 $Y$ 的比例。需要注意的是,$X$ 导致 $Y
超级会员免费看
订阅专栏 解锁全文
337

被折叠的 条评论
为什么被折叠?



