利用 Apriori 算法探索关联规则
1. 关联规则基本概念
1.1 置信度(Confidence)
置信度是指在出现 X 的情况下出现 Y 的比例,计算公式为同时出现 X 和 Y 的情况数除以出现 X 的情况数。例如,对于关联规则 {樱桃可乐, 薯片} => 鸡翅,{樱桃可乐, 薯片} 项集在 5 笔交易中出现了 3 次,而在这 3 次交易中,只有 1 次购买了鸡翅,所以该规则的置信度为 1/3 = 0.33。
1.2 提升度(Lift)
当规则的前件和后件都频繁出现时,即使它们之间没有真正的关系,也可能经常同时出现。这种同时出现的比例可以通过支持度的乘积来计算,即 Support(X) * Support(Y)。提升度是衡量规则支持度相对于随机预期的改善程度,计算公式为 Support(X=>Y) / (Support(X) * Support(Y))。
例如,对于规则 {柠檬} => 樱桃可乐,柠檬的支持度为 1,樱桃可乐的支持度为 0.8,Support(柠檬) * Support(樱桃可乐) = 1 * 0.8 = 0.8。若 Support({柠檬, 樱桃可乐}) = 4/5,则 Lift = (4/5) / ( (5/5) * (4/5) ) = 1。由于提升度不高于 1,说明该规则对柠檬和樱桃可乐之间关系的解释并不比随机预期更好。
2. Apriori 算法原理
2.1 基于支持度剪枝生成项集
最直接的计算频繁项集的方法是考虑所有可能的项集,并丢弃支持度低于最小支持度的项集。但这种方法效率极低,因为生成项集后再丢弃会浪费计算资源。
超级会员免费看
订阅专栏 解锁全文
1248

被折叠的 条评论
为什么被折叠?



