【机器学习】关联规则（又称频繁模式挖掘）

最新推荐文章于 2024-02-19 22:08:20 发布

原创

最新推荐文章于 2024-02-19 22:08:20 发布 · 2.1k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#机器学习 #关联规则 #Apriori #FP-growth #模式评估

关联规则是数据挖掘中的一个重要概念，用于发现数据集中频繁出现的模式。本文介绍了关联规则的基础概念，包括项目、项集、频繁模式、支持度和置信度，并详细阐述了Apriori和FP-growth两种算法的原理和性能对比。此外，还探讨了模式评估的多种方法，如提升度、χ2系数等。

#介绍
关联规则又称频繁模式挖掘，旨在搜索给定数据集中反复出现的联系。啤酒与尿布的故事太过于经典了，做数据处理的同学应该都听说过这个故事，这个故事其实是BI产品编造出来的数据“神话”，但是算法本质原理还是值得研究的。这个故事也就是说把有关联的东西放在一起，可以方便顾客的购买。
一般，关联规则可以应用的场景有：

优化货架商品摆放或者优化邮寄商品的目录
交叉销售或者捆绑销售
搜索词推荐或者识别异常
#基础概念
项目：数据集中的一个元数据，对超市的交易来说一般是指交易中的一个物品，如啤酒；
项集：若干项目的集合，如{啤酒，尿布}；
频繁模式：频繁地出现在数据集中的模式；
频繁项集：频繁地同时出现在数据集中的项目集合；
支持度：项集在总数据集中出现的概率；
置信度：在条件X下，根据规则{X->Y}推导出Y的概率；
提升度：是一种简单的相关性度量，可以用来评价所发现模式的相关性。
#实现过程
实现过程也是按照上面三个度进行：首先在数据集中找到频繁项集，即满足最小支持度的项集；然后计算是否符合强关联规则，即满足最小置信度；最后验证筛选有效的强关联规则，即提升度>1。
支持度是在全部数据集中，{A，B}同时出现的概率；置信度是条件A下，同时发生B的概率，公式可表示如下：
$P(A\cup B)$
$\frac{support(A\cup B)}{support(A)} = \frac{support\_count(A\cup B)}{support\_count(A)}$

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。