通过Apriori算法,我们可以对数据进行关联分析,能够在大量的数据中找出数据间有趣的关系。那这个关系怎么找呢。一是根据支持度找出频繁项集,二是根据置信度产生关联规则。频繁项集指在物品经常一起出现的。关联规则表示两个物品间有很强的关系。
首来理解一下关联规则中两个基本概念:支持度与置信度。
举一个购物清单的例子
对于Bread->milk这个事件中:
1、支持度:P(Bread ∩ milk), 即出现过Bread也出现过Milk的概率,这里一个有8条记录, 即出现过Bread也出现过Milk的记录数为2 条,所以Bread->milk支持度为2/8.。意义为:1/4的顾客同时购买Bread和milk
2、置信度:P(Bread ∩ milk)/P(Bread),即在Bread出现过的条件下,milk出现过的概率。这里Bread->milk置信度为2/6.。意义为:购买Bread的顾客1/3也购买了milk。
一般我们会设置个最小支持度与最小置信度,如果事件的支持度大于最小支持度,那么称这个事件为频繁项集。如果事件的支持度大于最小支持度同时置信度也大于最小支持度,那么我们称这个事件具有强规