关联规则基础
1.关联规则分析:
关联规则分析也称为购物篮分析,最早是为了发现超市销售数据库中不同的商品之间的关联关系。
关联规则分析目的是在一个数据集中找出各项之间的关联关系,而这种关系并没有在数据中直接表示出来。
2.常用算法:
Apriori:关联规则最常用也是最经典的挖掘频繁项集的算法,其核心思想是通过连接产生候选项及其支持度然后通过剪枝生成频繁项集。
FP-Tree:针对Apriori算法的固有的多次扫描事物数据集的缺陷,提出的不产生候选频繁项集的方法。Apriori和FP-Tree都是寻找频繁项集的算法。
Eclat算法:Eclat算法是一种深度优先算法,采用垂直数据表示形式,在概念格理论的基础上利用基于前缀的等价关系将搜索空间划分为较小的子空间。
灰色关联法:分析和确定各因素之间的影响程度或是若干个子因素(子序列)对主因素(母序列)的贡献度而进行的一种分析方法。
3.关联规则的基本概念
事务和项集
关联规则的分析对象是事务。
事务可以理解为一种商业行为,含义极为广泛。
事务也即购物篮,在实际应用中有多种不同的理解。
4.关联规则和频繁项集
关联规则:形如X->Y形式的蕴含表达式,其中X和Y是不相交的。