频繁模式:
频繁出现在数据集中的模式
譬如,一个商场一天出售的商品(大米,油,等)是一个数据集。频繁模式是一个子序列,如牙膏和牙刷总是在一起出现,则课看做一个频繁模式。
关联规则:
频繁模式可以使用关联规则表示,如:
牙刷=>牙膏
表示一个人买了牙刷后很可能买牙膏。
频繁项集:
项的集合称为项集。
包含k个项的项集称为k项集。
项集出现的频数是包含项的事务数,称为支持度计数。
如果一个项集的支持度计数大于预定义的最小支持度计数,则称该项集为频繁项集。
Apriori算法就是从数据集中找出所有的频繁项集,再产生所有的关联规则,计算其置信度,从而挖掘出需要的关联模式。
在介绍算法前先明确一个性质:任一频繁项集的所有非空子集也必须是频繁的。因为假如P(I)< 最小支持度阈值,当有元素A添加到I中时,结果项集(A∩I)不可能比I出现次数更多。因此A