购物篮事务(market basket transaction),如下表,表中每一行对应一个事务,包含唯一标识TID,和购买的商品集合。本文介绍一种成为关联分析(association analysis)的方法,这种方法,可以从下表可以提取出,{尿布}—>牛奶.
两个关键问题:1大型数据计算量很大。2发现的某种模式可能是虚假,偶然发生的。
2问题定义
把数据可以转换为如下表的二元表示,非二元不在本文讨论范围
项集
项集的支持度计数:
关联规则:
我们要发现,满足最小支持度与最小置信度的规则。
l 频繁项集(frequent itemset):发现满足最小支持度阈值的所有项集,这些项集成为频繁项集。
l 规则的产生:从上一步发现的频繁项集中提取所有高置信度的规则,这些规则成为强规则(strong rule)
频繁项集的产生
穷举法:
利用格结构(lattice structure)产生所有候选项集(candidate itemset).
利用穷举法,计算每个候选项集的支持度计数。但是该方法计算量太大。
先验(apriori)原理:
如果一个项集是频繁的,则的所有子集一定是频繁的。若某项集是非频繁的,则其所有的超级也一定是非频繁的。
如下图,若{c,d,e}是频繁项集,则它的子集一定是频繁项集。
项集{a,b}是非频繁的,则其所有的超级也一定是非频繁的,如下图。