关联规则最初是针对购物篮分析问题提出的,其目的是为了发现交易数据库中不同商品之间的关联规则。
关联规则挖掘的问题可以划分为两个子问题:
- 发现频繁项目集:通过用户给定Minsupport,寻找所有频繁项目集或者最大频繁项目集。
- 生成关联规则:通过用户给定Minconfidence,在频繁项目集中,寻找关联规则。
一些小概念
项目集的支持度
给定一个全局项目集I和数据库D,I中的一个项目集A在D上的支持度是指包含A的事务在D中所占的百分比。
频繁项目集
D中所有大于等于最小支持度Minsupport的项目集称频繁项目集。
关联规则和置信度
一个定义在I和D上的关联规则形如A=>B,它的置信度是指包含A和B的事务数与包含A的事务数之比。
强关联规则
D在I上满足最小支持度和最小置信度Minconfidence的关联规则称为强关联规则。
Apriori算法
Apriori算法利用了Apriori性质,频繁项集的所有非空子集也必须是频繁的。
它通过逐层接待的方法,先找到频繁1项集L1,然后利用L1找到频繁2项集L2,接着用L2找L3,直到找不到频繁k项集,找每个Lk时候都需要一次数据库扫描。
案例演示(数据挖掘课程作业~
实验对象:实验对象为GNC订单明细表
数据读取: