文章目录
有关 Github \text{Github} Github仓库,欢迎来 Star \text{Star} Star
1. \textbf{1. } 1. 基本概念
1️⃣关联规则挖掘
- 含义:从事务数据库中发现项集之间有趣的关联
- 定义:对于 Y ⊆ I / X ⊆ T i Y\text{⊆}I/X\text{⊆}T_i Y⊆I/X⊆Ti且 X ∩ Y = ∅ X\text{∩}Y\text{=}\varnothing X∩Y=∅, X → Y X\text{→}Y X→Y表示既然 T i T_i Ti中含 X X X则也(以一定支持/置信度)含 Y Y Y
集合 含义 示例 项集 I I I I = { i 1 , i 2 , ⋯ , i m } I\text{=}\left\{i_1, i_2, \cdots, i_m\right\} I={ i1,i2,⋯,im} 超市中的所有商品 事务集 D D D D = { T 1 , T 2 , ⋯ , T n } D\text{=}\left\{T_1, T_2, \cdots, T_n\right\} D={ T1,T2,⋯,Tn}且 T i ⊆ I T_i\text{⊆}I Ti⊆I 所有交易( T i T_i Ti为第 i i i次交易结算商品) 事务包含项集 X X X X ⊆ I X\text{⊆}I X⊆I且 X ⊆ T i X\text{⊆}T_i X⊆Ti 每次交易所结算的(部分)商品 - 表示:
- 数学表示: A → B [ S , C ] A\text{→}B\,\,[S,C] A→B[S,C] (当 S C SC SC都超过阈值时认为该规则强相关)
- 可视化图:
2️⃣规则度量
- 客观度量:
Item \textbf{Item} Item 公式 含义 支持度 S ( A → B ) = P ( A ∩ B ) S(A\text{→}B)\text{=}P(A\text{∩}B) S(A→B)=P(A∩B), S ( A ) = P ( A ) S(A)\text{=}P(A) S(A)=P(A) 所有事务中,有多少事务同时含 A B AB AB/含 A A A 置信度 C ( A → B ) = P ( A ∩ B ) P ( A ) C(A\text{→}B)\text{=}\cfrac{P(A\text{∩}B)}{P(A)} C(A→B)=P(A)P(A∩B) 在包含 A A A的事务中,有多少同时还含 B B B
- 示例: TID Item 2000 A , B , C 1000 A , C 4000 A , D 5000 B , E , F ⇒ { P ( A ) = 3 4 P ( A ∩ B ) = 1 4 ⇒ A → B [ 1 4 , 1 3 ] \text{ \large } \begin{array}{|c|c|} \hline \text{\small TID} & \text{\small Item} \\ \hline \small 2000 & \small A, B, C \\ \hline \small 1000 & \small A, C \\ \hline \small 4000 & \small A, D \\ \hline \small 5000 & \small B, E, F \\ \hline \end{array} \text{ ⇒ } \begin{cases} P(A) = \cfrac{3}{4} \\[5pt] P(A \cap B) = \cfrac{1}{4} \end{cases} \text{ ⇒ } A \to B \, \left[\cfrac{1}{4}, \cfrac{1}{3}\right] TID2000100040005000ItemA,B,CA,CA,DB,E,F ⇒ ⎩ ⎨ ⎧P(A)=43P(A∩B)=41 ⇒ A→B[41,31]
- 主观度量:个人常识/实际情况…
3️⃣关联规则/相关性/因果关系
- 关联规则/相关性
- 相关性衡量: Lift ( A , B ) = P ( A ∪ A ) P ( A ) P ( B ) → { < 1 → A B 负相关 = 1 → A B 无相关 > 1 → A B 正相关 \text{Lift}(A,B)\text{=}\cfrac{P(A\text{∪}A)}{P(A)P(B)}\text{→}\begin{cases}\text{<}1\text{→}AB负相关\\\\\text{=}1\text{→}AB无相关\\\\\text{>}1\text{→}AB正相关\end{cases} Lift(A,B)=P(A)P(B)P(A∪A)→⎩ ⎨ ⎧<1→AB负相关=1→AB无相关>1→AB正相关
- 二者关系:强关联规则$\text{≠} $正相关
- 关联规则/因果关系:二者无关,但相关性有助于为发现因果关系提供线索
2. \textbf{2. } 2. 布尔关联规则
2.1. \textbf{2.1. } 2.1. 一些基本概念
1️⃣频繁项集
- 定义: X X X频繁 ⇔ 等价于 \xLeftrightarrow{等价于} 等价于 事务集 D D D中含 X X X的 T i T_i Ti数量( X X X支持度)超过阈值 ⇔ 等价于 X \xLeftrightarrow{等价于}X 等价于 X满足最小支持度
- 性质:
- 如果 X X X频繁 → X \text{→}X →X的子集也一定频繁(向下封闭)
- 如果 X X X非频繁 → X \text{→}X →X的超集(如 { X , x n + 1 , x n + 2 , . . . } \{X,x_{n+1},x_{n+2},...\} { X,xn+1,xn+2,...})也一定非频繁
2️⃣闭合集 & \& &最大集:为解决组合爆炸( 规则数目 ∝ 2 数据集规模 规则数目\text{ ∝ }2^{数据集规模} 规则数目 ∝ 2数据集规模)问题
- 定义:对于事务集 D D D
集合 含义 意义 闭合集(模式) X X X闭合 ⇔ 等价于 X \xLeftrightarrow{等价于}X 等价于 X频繁 ∩ X \text{∩}X ∩X所有超集的支持度小于 X X X的 D D D无损压缩 最大集(模式) X X X最大 ⇔ 等价于 X \xLeftrightarrow{等价于}X 等价于 X频繁 ∩ X \text{∩}X ∩X所有超集都非频繁 D D D有损压缩 - 示例: D = { A 1 = ⟨ a 1 , a 2 , … , a 100 ⟩ , A 2 = ⟨ a 1 , a 2 , … , a 50 ⟩ } D\text{=}\left\{A_1\text{=}\left\langle a_1, a_2, \ldots, a_{100}\right\rangle,A_2\text{=}\left\langle a_1, a_2, \ldots, a_{50}\right\rangle\right\} D={ A1=⟨a1,a2,…,a100⟩,A2



最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



