笔记分享: 西安交通大学COMP551705数据仓库与数据挖掘——02. 关联规则挖掘

image-20241112204045174


有关 Github \text{Github} Github仓库,欢迎来 Star \text{Star} Star

1.   \textbf{1. } 1. 基本概念

1️⃣关联规则挖掘

  1. 含义:从事务数据库中发现项集之间有趣的关联
  2. 定义:对于 Y ⊆ I / X ⊆ T i Y\text{⊆}I/X\text{⊆}T_i YI/XTi X ∩ Y = ∅ X\text{∩}Y\text{=}\varnothing XY= X → Y X\text{→}Y XY表示既然 T i T_i Ti中含 X X X则也(以一定支持/置信度)含 Y Y Y
    集合 含义 示例
    项集 I I I I = { i 1 , i 2 , ⋯   , i m } I\text{=}\left\{i_1, i_2, \cdots, i_m\right\} I={ i1,i2,,im} 超市中的所有商品
    事务集 D D D D = { T 1 , T 2 , ⋯   , T n } D\text{=}\left\{T_1, T_2, \cdots, T_n\right\} D={ T1,T2,,Tn} T i ⊆ I T_i\text{⊆}I TiI 所有交易( T i T_i Ti为第 i i i次交易结算商品)
    事务包含项集 X X X X ⊆ I X\text{⊆}I XI X ⊆ T i X\text{⊆}T_i XTi 每次交易所结算的(部分)商品
  3. 表示:
    • 数学表示: A → B    [ S , C ] A\text{→}B\,\,[S,C] AB[S,C] (当 S C SC SC都超过阈值时认为该规则强相关)
    • 可视化图:

2️⃣规则度量

  1. 客观度量:
    Item \textbf{Item} Item 公式 含义
    支持度 S ( A → B ) = P ( A ∩ B ) S(A\text{→}B)\text{=}P(A\text{∩}B) S(AB)=P(AB), S ( A ) = P ( A ) S(A)\text{=}P(A) S(A)=P(A) 所有事务中,有多少事务同时含 A B AB AB/ A A A
    置信度 C ( A → B ) = P ( A ∩ B ) P ( A ) C(A\text{→}B)\text{=}\cfrac{P(A\text{∩}B)}{P(A)} C(AB)=P(A)P(AB) 在包含 A A A的事务中,有多少同时还含 B B B
    • 示例:   TID Item 2000 A , B , C 1000 A , C 4000 A , D 5000 B , E , F  ⇒  { P ( A ) = 3 4 P ( A ∩ B ) = 1 4  ⇒  A → B   [ 1 4 , 1 3 ] \text{ \large } \begin{array}{|c|c|} \hline \text{\small TID} & \text{\small Item} \\ \hline \small 2000 & \small A, B, C \\ \hline \small 1000 & \small A, C \\ \hline \small 4000 & \small A, D \\ \hline \small 5000 & \small B, E, F \\ \hline \end{array} \text{ ⇒ } \begin{cases} P(A) = \cfrac{3}{4} \\[5pt] P(A \cap B) = \cfrac{1}{4} \end{cases} \text{ ⇒ } A \to B \, \left[\cfrac{1}{4}, \cfrac{1}{3}\right]  TID2000100040005000ItemA,B,CA,CA,DB,E,F ⇒  P(A)=43P(AB)=41 ⇒ AB[41,31]
  2. 主观度量:个人常识/实际情况…

3️⃣关联规则/相关性/因果关系

  1. 关联规则/相关性
    • 相关性衡量: Lift ( A , B ) = P ( A ∪ A ) P ( A ) P ( B ) → { < 1 → A B 负相关 = 1 → A B 无相关 > 1 → A B 正相关 \text{Lift}(A,B)\text{=}\cfrac{P(A\text{∪}A)}{P(A)P(B)}\text{→}\begin{cases}\text{<}1\text{→}AB负相关\\\\\text{=}1\text{→}AB无相关\\\\\text{>}1\text{→}AB正相关\end{cases} Lift(A,B)=P(A)P(B)P(AA) 1AB负相关=1AB无相关>1AB正相关
    • 二者关系:强关联规则$\text{≠} $正相关
      image-20241117015923744
  2. 关联规则/因果关系:二者无关,但相关性有助于为发现因果关系提供线索

2.   \textbf{2. } 2. 布尔关联规则

2.1.   \textbf{2.1. } 2.1. 一些基本概念

1️⃣频繁项集

  1. 定义: X X X频繁 ⇔ 等价于 \xLeftrightarrow{等价于} 等价于 事务集 D D D中含 X X X T i T_i Ti数量( X X X支持度)超过阈值 ⇔ 等价于 X \xLeftrightarrow{等价于}X 等价于 X满足最小支持度
  2. 性质:
    • 如果 X X X频繁 → X \text{→}X X的子集也一定频繁(向下封闭)
    • 如果 X X X非频繁 → X \text{→}X X的超集(如 { X , x n + 1 , x n + 2 , . . . } \{X,x_{n+1},x_{n+2},...\} { X,xn+1,xn+2,...})也一定非频繁

2️⃣闭合集 & \& &最大集:为解决组合爆炸( 规则数目 ∝  2 数据集规模 规则数目\text{ ∝ }2^{数据集规模} 规则数目 ∝ 2数据集规模)问题

  1. 定义:对于事务集 D D D
    集合 含义 意义
    闭合集(模式) X X X闭合 ⇔ 等价于 X \xLeftrightarrow{等价于}X 等价于 X频繁 ∩ X \text{∩}X X所有超集的支持度小于 X X X D D D无损压缩
    最大集(模式) X X X最大 ⇔ 等价于 X \xLeftrightarrow{等价于}X 等价于 X频繁 ∩ X \text{∩}X X所有超集都非频繁 D D D有损压缩
  2. 示例: D = { A 1 = ⟨ a 1 , a 2 , … , a 100 ⟩ , A 2 = ⟨ a 1 , a 2 , … , a 50 ⟩ } D\text{=}\left\{A_1\text{=}\left\langle a_1, a_2, \ldots, a_{100}\right\rangle,A_2\text{=}\left\langle a_1, a_2, \ldots, a_{50}\right\rangle\right\} D={ A1=a1,a2,,a100,A2
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值