数据挖掘之关联规则算法Apriori

本文介绍了数据挖掘中的关联规则算法Apriori,包括项目集的支持度、频繁项目集、关联规则和置信度的概念。Apriori算法遵循Apriori性质,通过逐层找频繁项集,直至无法找到新的频繁项集。文中还展示了在GNC订单明细表上的案例演示,涉及数据读取、处理和关联分析的步骤。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

关联规则最初是针对购物篮分析问题提出的,其目的是为了发现交易数据库中不同商品之间的关联规则。

关联规则挖掘的问题可以划分为两个子问题:

  • 发现频繁项目集:通过用户给定Minsupport,寻找所有频繁项目集或者最大频繁项目集。
  • 生成关联规则:通过用户给定Minconfidence,在频繁项目集中,寻找关联规则。

一些小概念

项目集的支持度

给定一个全局项目集I和数据库D,I中的一个项目集A在D上的支持度是指包含A的事务在D中所占的百分比。

频繁项目集

D中所有大于等于最小支持度Minsupport的项目集称频繁项目集。

关联规则和置信度

一个定义在I和D上的关联规则形如A=>B,它的置信度是指包含A和B的事务数与包含A的事务数之比。

强关联规则

D在I上满足最小支持度和最小置信度Minconfidence的关联规则称为强关联规则。

 Apriori算法

Apriori算法利用了Apriori性质,频繁项集的所有非空子集也必须是频繁的。

它通过逐层接待的方法,先找到频繁1项集L1,然后利用L1找到频繁2项集L2,接着用L2找L3,直到找不到频繁k项集,找每个Lk时候都需要一次数据库扫描。

案例演示(数据挖掘课程作业~

实验对象:实验对象为GNC订单明细表

数据读取:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值