关联规则挖掘的目标是发现数据项集之间的关联关系或相关关系,是数据挖掘中的一个重要的课题。
先简单介绍一下关联规则挖掘中涉及的几个基本概念:
定义1:项与项集
数据库中不可分割的最小单位信息,称为项目,用符号i表示。项的集合称为项集。设集合I={i1, i2, ..., ik}是项集,I中项目的个数为k,则集合I称为k项集。
定义2:事务
设I={i1, i2, ..., ik}是由数据库中所有项目构成的集合,一次处理所含项目的集合用T表示,T={t1, t2, ..., tn}。每一个包含ti子项的项集都是I子集。
定义3:项集的频数(支持度计数)
包括项集的事务数称为项集的频数(支持度计数)。
定义4:关联规则
关联规则是形如X=>Y的蕴含式,其中X、Y分别是I的真子集,并且X∩Y=Ø。X称为规则的前提,Y称为规则的结果。关联规则反映X中的项目出现时,Y中的项目也跟着出现的规律。
定义5:关联规则的支持度(Support)
关联规则的支持度是交易集中同时包含的X和Y的交易数与所有交易数之比,记为support(X=>Y),即support(X=>Y)=supportX∪Y=P(XY)。支持度反映了X和Y中所含的项在事务集中同时出现的概率。
定义6:关联规则的置信度(Confidence)
关联规则的置信度是交易集中包含X和Y的交易数与所有包含X的交易数之比,记为confidence(X=>Y),即:confidence(X=>Y)==P(Y|X)。置信度反映了包含X的事务中,出现Y的条件概率。
定义7:最小支持度与最小置信度
通常用户为了达到一定的要求,需要指定规则必须满足的支持度和置信度阈限,当support(X=>Y)、confidence(X=&g

最低0.47元/天 解锁文章
727

被折叠的 条评论
为什么被折叠?



