一 定义
根据韩家炜等观点,关联规则定义为:
假设是I={i1,i2...im}项的集合。给定一个交易数据库D,其中每个事务(Transaction)t是 I 的非空子集,即,每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则在D中的支持度(support)是D中事务同时包含X、Y的百分比,即概率;置信度(confidence)是D中事务已经包含X的情况下,包含Y的百分比,即条件概率。如果满足最小支持度阈值和最小置信度阈值,则认为关联规则是有趣的。这些阈值是根据挖掘需要人为设定。
二 过程
关联规则挖掘过程主要包含两个阶段:
第一阶段,从数据集合中找出所有的高频项目组(Frequent Itemsets);
关联规则挖掘的第一阶段必须从原始资料集合中,找出所有高频项目组(Large Itemsets)。高频的意思是指某一项目组出现的频率相对于所有记录而言,必须达到某一水平。一项目组出现的频率称为支持度(Support),以一个包含A与B两个项目的2-itemset为例,我们可以经由公式(1)求得包含{A,B}项目组的支持度,若支持度大于等于所设定的最小支持度(Minimum Support)门槛值时,则{A,B}称为高频项目组。一个满足最小支持度的k-itemset,则称为高频k-项目组(Frequent k-itemset),一般表示为Large k或Frequent k。算法并从Large k的项目组中再产生Large k+1,直到无法再找到更长的高频项目组为止。
关联规则挖掘的第二阶段是要产生关联规则(Association Rules)。从高频项目组产生关联规则,是利用前一步骤的高频k-项目组来产生规则,在最小信赖度(Minimum Confidence)的条件门槛下,若一规则所求得的信赖度满足最小信赖度,称此规则为关联规则。例如:经由高频k-项目组{A,B}所产生的规则AB,其信赖度可经由公式(2)求得,若信赖度大于等于最小信赖度,则称AB为关联规则。

关联规则挖掘定义了在交易数据库中发现有趣关联规则的过程,涉及支持度和置信度指标。该过程包括寻找高频项目组和生成关联规则两个阶段。Apriori算法是一种经典的挖掘频繁项集的算法,遵循先验性质,通过逐层搜索产生频繁项集,进而生成满足最小支持度和最小置信度的关联规则。
最低0.47元/天 解锁文章
1270

被折叠的 条评论
为什么被折叠?



