支持度、置信度和提升度
支持度:是个百分比,指的是某个商品组合出现的次数与总次数之间的比例。支持度越高,代表这个组合出现的频率越大
置信度:是个条件概念,指的是当你购买了商品A,会有多大的概率购买商品B
提升度:商品A的出现,对商品B的出现概率提升的程度,商品A的出现,对商品B的出现概率提升的程度
提升度(A→B)=置信度(A→B)/支持度(B)
- 提升度(A→B)>1:代表有提升;
- 提升度(A→B)=1:代表有没有提升,也没有下降;
- 提升度(A→B)<1:代表有下降。
Apriori算法原理
这里有1-6个商品:

Apriori算法就是查找频繁项集(frequent itemset)的过程
频繁项集:支持度大于等于最小支持度(Min Support)阈值的项集。
非频繁项集:支持度小于最小支持度的项集
假设最小支持度为0.5,以下K为商品组合个数
1、先计算K=1的支持度

那么Item4和6不符合最小支持度的,不属于频繁项集:

2、k=2项的支持度:

筛选掉小于最小值支持度的商品组合:

3、K=3项的支持度

筛选掉小于最小值支持度的商品组合:

得到K=3项的频繁项集{1,2,3}
Apriori算法的流程:
Step1,K=1,计算K项集的支持度;
Step2,筛选掉小于最小支持度的项集;
Step3,如果项集为空,则对应K-1项集的结果为最终结果。
否则K=K+1,重复1-3步。
本文详细介绍了关联规则学习中的Apriori算法,包括支持度、置信度和提升度的概念。支持度衡量商品组合出现的频率,置信度表示购买商品A后购买商品B的概率,而提升度则反映商品A对商品B出现概率的提升程度。通过Apriori算法,可以找到频繁项集,即支持度超过预设阈值的商品组合。文章以实例展示了如何逐步筛选频繁项集,最终得到满足条件的频繁项集。
5万+





