Apriori算法有支持度和置信度两个概念,都是在执行算法之前自己设定的,在每一次迭代过程后,大于支持度的项集被保留为频繁项集,最后生成的规则由最终的频繁项集组成。
支持度:支持度就是所有我们分析的交易中,某两种(若干种)商品同时(这里的同时,一般意味着同单活着一次独立的交易)被购买的概率(比率)。我们选择支持度的最终目的就是找出同时被购买的两个商品,可以提高我们的推荐转换率,从而增加收入。
通过根据前万分之一或者前20,可以得到一个支持度。(应该是推荐模型里一个迭代的过程)
客观的表现
置信度:置信度就是根据某一个条件,得到一个结论的可信程度、可靠程度。“购买了尿布”这个条件,可以推出“同时也会购买啤酒”这个结论的可靠程度很高。分析数据表明,沃尔玛尿布到啤酒的置信度高达70%。
在分析支持度得到的前20对商品中,分别计算双向置信度,然后筛选前n个置信度较高的置信度,分析其对应的结论。通过有经验的业务人员,从中共同选出最合理的一对商品,来进行单项的购物车推荐。这时得到的一个置信度,可以作为今后机器学习的参考值。
主观上的筛选(阈值)
给定一个数据库D,寻找频繁项集流程如下图所示