Apriori算法

最新推荐文章于 2025-06-19 10:46:07 发布

NovenBae

最新推荐文章于 2025-06-19 10:46:07 发布

阅读量858

点赞数

CC 4.0 BY-SA版权

分类专栏：学习文章标签： apriori算法关联分析机器学习算法无监督学习算法尿布与啤酒

本文链接：https://blog.youkuaiyun.com/softimite_zifeng/article/details/53183999

Apriori算法是一种用于关联分析的无监督学习算法，旨在发现大数据集中元素间的频繁项集和强关联规则。通过支持度和可信度评估项集的频繁程度和规则的可信度，利用Apriori原理减少计算复杂性。文章详细介绍了算法的原理、频繁项集和关联规则的定义，以及算法的实现过程，包括如何发现频繁项集和关联规则。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

“尿布与啤酒”，这是一个十分注明的案例。美国中西部的一家连锁店发现尿布经常会和啤酒一同被购买。然后就对这一现象做一番调查后发现，原来男人们在购买尿布的同时会顺便购买啤酒。所以，如果将尿布与啤酒放在一起，可能会获得更大的利益。其实，这是一个关联分析的例子。

关联分析是指从大规模数据集中寻找物品间的隐含关系。

寻找物品间的隐含关系，或寻找物品的不同组合，是一项很耗时的任务，所需的计算代价很大，通过普通的人工搜索方法并不能解决这个问题，所以需要用更高效的方法在合理的时间内找到频繁项集，即经常出现在一起的物品组成的集合。

Apriori算法是解决上述问题的一种智能有效的算法。

Apriori算法适用于关联分析——发现大数据集中元素间的有趣关系。这种关系分为两种形式：频繁项集和关联规则。频繁项集是指经常出现在一起的物品组合的集合；关联规则是指两种或多种物品之间可能存在很强的关系，即某些物品的出现很大可能会退出其它物品的出现。

在上面的图片中，集合{果汁，牛奶，面包}就是一个频繁项集，面包->牛奶就是一个关联规则。这意味着如果有人买了面包，那么他很有可能还会买牛奶。使用频繁项集和关联规则，商家可以更好地理解顾客的行为并获得更大的利益。

不知道大家有没有考虑一个问题。上面所说的频繁项集的频繁是如何定义的？关联规则又有多大的可信度？这就牵涉到了两个重要的概念——支持度和可信度。

支持度是针对频繁项集定义的。一个项集的支持度是指数据集中包含该项集的记录所占的比例。上面的图片可以得到，{年奶}的支持度为4/5，{牛奶，面包}的支持度为3/5。因此，可以定义一个最小支持度，只要满足最小支持度的项集就被称为频繁项集。

可信度是针对关联规则定义的。“面包->牛奶”这一关联规则的可信度被定义为“支持度（{面包，牛奶}）/支持度（{面包}）”。已知{面包}的支持度为4/5，{面包，牛奶}的支持度为3/5，所以“面包->牛奶”的可信度为3/4=75%。这就意味着对于包含“面包”的所有记录，我们的规则对其中的75%的记录都适用。