1. 算法简介
关联规则最初提出的动机是针对购物篮分析(Market Basket Analysis)问题提出的。1993年,Agrawal等人在首先提出关联规则概念,同时给出了相应的挖掘算法AIS,但是性能较差。1994年,他们建立了项目集格空间理论,并依据上述两个定理,提出了著名的Apriori算法,至今Apriori仍然作为关联规则挖掘的经典算法被广泛讨论,以后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。
假定你是AllElectronics的销售经理,当有顾客买了PC和数码相机时,你会向他推荐什么产品?你会考虑哪些问题?
这就是关联规则要回答的问题。
1.1 基本概念
- 关联规则的分类
1.按处理的变量
布林型:买啤酒=>买尿布
数值型:月收入5000元=>每月交通费800元
2.按资料的抽象层次
单层关联规则: IBM台式机=>Sony打印机,一个细节数据上的单层关联规则
多层关联规则:台式机=>Sony打印机,较高和细节层次之间的多层关联规则
3.按涉及到的资料维数
单维关联规则:啤酒=>尿布,只涉及到用户的购买的物品
多维关联规则:性别=”女”=>职业=”秘书”,涉及到两个字段的信息
- 三个度
关联规则的计算主要计算三个度
支持度support
置信度confidence
提升度lift
以一