利用 Apriori 算法探索关联规则
1. 基本概念
- 置信度(Confidence) :置信度是指在出现 X 的情况下出现 Y 的比例,计算公式为同时出现 X 和 Y 的情况数除以出现 X 的情况数。例如,对于关联规则 {樱桃可乐, 薯片} => 鸡翅,在 5 笔交易中有 3 笔出现了 {樱桃可乐, 薯片},而这 3 笔交易中只有 1 笔购买了鸡翅,所以该规则的置信度为 1/3 = 0.33。
- 提升度(Lift) :当规则的前件和后件都频繁出现时,即使它们之间没有真正的关系,也可能经常同时出现。这种情况出现的比例为 support(X) * support(Y)。提升度是规则支持度相对于随机预期的改进程度,计算公式为 Support(X=>Y) / (Support(X) * Support(Y))。例如,对于规则 {柠檬} => 樱桃可乐,柠檬的支持度为 1,樱桃可乐的支持度为 0.8,若 {柠檬, 樱桃可乐} 的支持度为 4/5,则提升度为 (4/5) / ( (5/5) * (4/5) ) = 1。当提升度不高于 1 时,说明该规则对两者关系的解释并不比随机预期更好。
2. Apriori 算法的内部工作原理
Apriori 算法的目标是高效地计算频繁项集和关联规则,并计算它们的支持度和置信度。下面简要介绍项集生成和规则生成的实现方式。
- 基于支持度剪枝生成项集 :最直接的计算频繁项集的方法是考虑所有可能的项集,然后丢弃支持度低于最小支持度的项集。但这种方法效率极低,因为生成
超级会员免费看
订阅专栏 解锁全文
1275

被折叠的 条评论
为什么被折叠?



