机器学习——关联分析
1 关联分析介绍
关联分析又称关联挖掘,就是在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。下面介绍关联分析中几个常用的概念:
项集:商品构成的集合,集合含有几个商品就称为几项集,如 {啤酒、尿布} 为二项集。
关联规则:商品间具有 X → Y X\rightarrow Y X→Y 的形式,左侧的 X X X 为先决条件,右侧的 Y Y Y 为相应的关联结果。
频繁项集:某一项集的支持度大于规定的支持度阈值。
支持度:在所有项集中 { X , Y } \{X,Y\} {
X,Y} 出现的可能性,即项集中同时出现 X , Y X,Y X,Y 的概率,其形式为:
S u p p o r t ( X → Y ) = P ( X , Y ) Support(X\rightarrow Y)=P(X,Y) Support(X→Y)=P(X,Y)
置信度:关联规则的先决条件 X X X 发生的条件下, Y Y Y 发生的概率,其形式为:
C o n f i d e n c e ( X → Y ) = P ( Y ∣ X ) = P ( X , Y ) P ( X ) Confidence(X\rightarrow Y)=P(Y|X)=\frac{P(X,Y)}{P(X)} Confidence(X→Y)=P(Y∣X)=P(X)P(X,Y)
提升度:含有 X X X 的条件下同时含有 Y Y Y 的概率与所有项集中含有 Y Y Y 的概率之比,其形式为:
L i f t ( X → Y ) = P ( Y ∣ X ) P ( Y ) = C o n f i d e n c e ( X → Y ) P ( Y ) Lift(X\rightarrow Y)=\frac{P(Y|X)}{P(Y)}=\frac{Confidence(X\rightarrow Y)}{P(Y)} Lift(X→Y)=P(Y)P(Y∣X)=P(Y)Confidence(X→Y)
当提升度等于 1 时,X 与 Y 是相互独立的,即 X 的出现对 Y 无提升作用,表明