Apriori算法

Apriori算法是一种用于关联分析的无监督学习算法,旨在发现大数据集中元素间的频繁项集和强关联规则。通过支持度和可信度评估项集的频繁程度和规则的可信度,利用Apriori原理减少计算复杂性。文章详细介绍了算法的原理、频繁项集和关联规则的定义,以及算法的实现过程,包括如何发现频繁项集和关联规则。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

       “尿布与啤酒”,这是一个十分注明的案例。美国中西部的一家连锁店发现尿布经常会和啤酒一同被购买。然后就对这一现象做一番调查后发现,原来男人们在购买尿布的同时会顺便购买啤酒。所以,如果将尿布与啤酒放在一起,可能会获得更大的利益。其实,这是一个关联分析的例子。

       关联分析是指从大规模数据集中寻找物品间的隐含关系。

       寻找物品间的隐含关系,或寻找物品的不同组合,是一项很耗时的任务,所需的计算代价很大,通过普通的人工搜索方法并不能解决这个问题,所以需要用更高效的方法在合理的时间内找到频繁项集,即经常出现在一起的物品组成的集合。

       Apriori算法是解决上述问题的一种智能有效的算法。

       Apriori算法适用于关联分析——发现大数据集中元素间的有趣关系。这种关系分为两种形式:频繁项集和关联规则。频繁项集是指经常出现在一起的物品组合的集合;关联规则是指两种或多种物品之间可能存在很强的关系,即某些物品的出现很大可能会退出其它物品的出现。



       在上面的图片中,集合{果汁,牛奶,面包}就是一个频繁项集,面包->牛奶就是一个关联规则。这意味着如果有人买了面包,那么他很有可能还会买牛奶。使用频繁项集和关联规则,商家可以更好地理解顾客的行为并获得更大的利益。

       不知道大家有没有考虑一个问题。上面所说的频繁项集的频繁是如何定义的?关联规则又有多大的可信度?这就牵涉到了两个重要的概念——支持度和可信度。

       支持度是针对频繁项集定义的 。一个项集的支持度是指数据集中包含该项集的记录所占的比例。上面的图片可以得到,{年奶}的支持度为4/5,{牛奶,面包}的支持度为3/5。因此,可以定义一个最小支持度,只要满足最小支持度的项集就被称为频繁项集。

       可信度是针对关联规则定义的。“面包->牛奶”这一关联规则的可信度被定义为“支持度({面包,牛奶})/支持度({面包})”。已知{面包}的支持度为4/5,{面包,牛奶}的支持度为3/5,所以“面包->牛奶”的可信度为3/4=75%。这就意味着对于包含“面包”的所有记录,我们的规则对其中的75%的记录都适用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值