一、关联分析
从大规模数据集中寻找物品间的隐含关系被称作关联分析( association analysis ) 或者关联规则学习(association rule learning)。
关联分析是一种在大规模数据集中寻找有趣关系的任务。这些关系可以有两种形式:频繁项集或者关联规则。频繁项集(frequent item sets)是经常出现在一块的物品的集合,关联规则 ( association rules )暗示两种物品之间可能存在很强的关系。
频繁项集是指那些经常出现在一起的物品集合。一个项集的支持度(support)被定义为数据集中包含该项集的记录所占的比例。支持度是针对项集来说的,因此可以定义一个最小支持度,而只保留满足最小支持度的项集。
可信度或置信度(confidence)是针对一条诸如{尿布} --->{葡萄酒}的关联规则来定义的。这条规则的可信度被定义为“ 支持度({尿布, 葡萄酒})/支持度({尿布})"。
二、Apriori原理
为了降低所需的计算时间,研究人员发现一种所谓的Apriori原理。Apriori原理可以帮我们减少可能感兴趣的项集。这意味着如果{0,1}是频繁的,那么{0} 、{1}也一定是频繁的。这个原理直观上并没有什么帮助,但是如果反过来看就有用了,也就是说如果一个项集是非频繁集,那么它的所有超集也是非频繁的,如下图所示。
Apriori 原理是说如果某个项集是频繁的,那么它的所有子集也是频繁的。