前言
关联规则就是在给定训练项集上频繁出现的项集与项集之间的一种紧密的联系。其中“频繁”是由人为设定的一个阈值即支持度 (support)来衡量,“紧密”也是由人为设定的一个关联阈值即置信度(confidence)来衡量的。这两种度量标准是频繁项集挖掘中两个至关重要的因素,也是挖掘算法的关键所在。对项集支持度和规则置信度的计算是影响挖掘算法效率的决定性因素,也是对频繁项集挖掘进行改进的入口点和研究热点。
基于关联规则的分类主要分为以下以个步骤:
- 对训练数据进行预处理(包括离散化、缺失值处理等)
- 关联规则挖掘
- 频繁项集挖掘
- 关联规则生成
- 规则处理
- 对测试集进行测试
在关联规则挖掘中,最耗费时间和空间资源的就是频繁项集挖掘,目前针对频繁项集挖掘已经有很多比较成熟的算法,在时间效率或空间效率对频繁项集的挖掘进行不断的优化和改进。
Apriori算法
关联规则挖掘算法中最经典的莫过于Apriori算法,它可以算得上是频繁项集挖掘算法的鼻祖,后续很多的改进算法也是基于Apriori算法的。但是遗憾的是Apriori算法的性能一般,但是即使如此,该算法却是频繁项集