【078】Apriori算法:从数据中挖掘频繁项集

本文详细介绍了Apriori算法,一种用于关联规则学习中提取频繁项集的流行方法。Apriori算法通过对交易数据库操作,找到满足用户指定支持度阈值的频繁项集。内容包括Apriori算法的步骤、原理,以及Python实现。同时,文中解释了支持度和置信度的概念,并给出了实例说明如何应用Apriori算法找出频繁项集和强关联规则。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

内容目录

一、Apriori算法及相关概念介绍二、Apriori算法步骤及原理三、Python 实现原文见公众号:python宝

一、Apriori算法及相关概念介绍

  Apriori是一种流行的算法,用于在关联规则学习中提取频繁项集。Apriori算法被设计用于对包含交易的数据库进行操作,例如商店客户的购买。如果项目集满足用户指定的支持阈值,则该项目集被视为“频繁”。例如,如果支持度阈值设置为0.5(50%),则频繁项目集被定义为在数据库中所有事务的至少50%中一起发生的项目集合。

   支持度(support):support(A=>B) = P(A∪B),表示A和B同时出现的概率。支持度就是几个关联的数据在数据集中出现的次数占总数据集的比重。或者说几个数据关联出现的概率。一般来说,支持度高的数据不一定构成频繁项集,但是支持度太低的数据肯定不构成频繁项集。 

  a) 如果我们有两个想分析关联性的数据X和Y,则对应的支持度为:

   b)  如果我们有三个想分析关联性的数据X,Y和Z,则对应的支持度为:

   置信度(confidence):confidence(A=>B)=support(A∪B) / support(A),表示A和B同时 出现的概率占A出现概率的比值。置信度体现了一个数据出现后,另一个数据出现的概率,或者说数据的条件概率。

      a)  如果我们有两个想分析关联性的数据X和Y,X对Y的置信度为:

      b)  对于三个数据X,Y,Z,则X对于Y和Z的置信度为:

   频繁项集:在项集中频繁出现并满足最小支持度阈值的集合,例如{牛奶,面包}、{手机,手机壳}等。
   强关联规则:满足最小支持度和最小至此年度的关联规则。

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值