Apriori算法

学渣渣_宇

于 2018-07-18 18:07:47 发布

阅读量3.6k

点赞数

CC 4.0 BY-SA版权

分类专栏：数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_42382211/article/details/81102297

数据挖掘专栏收录该内容

6 篇文章

订阅专栏

今天看《python数据分析与挖掘实战》一书中讲到关联规则这块算法，第一次看很懵，自己也花了点时间百度找实例理解。下面记录自己的理解，为了自己复习用。下面写的不是很详细，不懂的概念可以查看我最底下的参考链接。

关联规则简单的理解就是从一个数据集中找出满足我们最初给定的最小支持度和最小置信度的所有关联规则。（大于最小的支持度和置信度）。具体实现分为两步：a、生成频繁项集：找出所有满足最小支持度的项集，找出的这些项集合称为频繁项集；b、生成规则：在上一步频繁项集的基础上生产满足最小置信度的规则，即为强规则。但是呢，问题在于a中最初生成的项集合太多了筛选费时，一个数据为n可以组合出2^(n-1)个。而b呢是在a完成后的基础上进行，所以费时主要是在筛选a中满足条件的项集这一步上。基于这个问题就引出了Apriori算法作用。

Apriori算法作用就是为了减少频繁项集的生成（上述中的a步）时间，尽早的消除一些完全不可能的频繁项集的集合。那么关键问题来了，怎么才能被Apriori算法认为是属于一些完全不肯能的频繁项集呢。下面就要根据Apriori算法的两条性质：1、频繁项集的所有非空子集也必须是频繁项集，2、如果一个集合不是频繁项集，则它的所有超集都不是频繁项集（我的理解：其实2就是1的反推得到的）。具体实现步骤呢在这本书上的p116页。

开始看这文字很难受，后面找了个实现步骤图，简单明了还便于理解：

到这里我们就计算出频繁项集了，完成了关联挖掘的第一步，后面就是每个规则的置信度计算（p119）。由支持度和置信度得出关联规则即可。下面贴张书上的例子图。计算很简单

第三图片和一些定义参考来源：

https://blog.youkuaiyun.com/PeixinYe/article/details/80155346，

https://www.cnblogs.com/fengfenggirl/p/associate_apriori.html

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

学渣渣_宇 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。