文章目录
前言
由于学习关联规则时没有找到比较浅显易懂的博客,于是打算自己写一篇快速了解
关联规则
的博客
参考的博客:
FP-growth算法
Apriori算法
关联规则挖掘
是一种基于规则的机器学习算法,可以在大数据样本库中挖掘频繁项集
,它的目的是利用一些度量指标来寻找数据之间存在的强规则。也就是说关联规则挖掘是用于知识发现,而非预测,所以是属于无监督的机器学习方法。
打开你的搜索引擎,打入“你好”,它会给你匹配一些和“你好”一块出现的多的词条,这其实就是去找关于“你好”的频繁项集
频繁项集:支持度大于等于最小支持度的商品组合
我们以啤酒-尿布的商场营销案例来阐述关联规则挖掘的作用
沃尔玛在分析销售记录时,发现啤酒和尿布经常一起被购买,于是他们调整了货架,把两者放在一起,结果真的提升了啤酒的销量。
原因解释:爸爸在给宝宝买尿布的时候,会顺便给自己买点啤酒?
通过上述的案例我们找到了一个关联规则:啤酒→尿布;这个规则出现的频次很高,关联性很强
我们衡量频繁项集
的指标有三个
-
支持度
所谓支持度,就是某个商品组合出现的次数在总购买记录中出现的次数
如:{牛奶}的支持度为 4 5 \frac{4}{5} 54,{牛奶,面包}的支持度为 3 5 \frac{3}{5} 53
-
置信度
置信度其实就是条件概率,表示在买了X的情况下再买Y的比例有多少,表示关联性的强弱
例如,在上面的案例中,牛奶出现的次数为4
牛奶和面包同时出现的次数为5
所以{牛奶,面包}的置信度为 4 5 \frac{4}{5} 5