挖掘模式(上)

本文介绍了数据挖掘中的频繁项集概念,包括支持度和置信度的定义,以及Apriori和FP-growth算法。进一步讨论了闭模式和极大模式的挖掘方法,如项合并、子项集减枝和项跳过。此外,还探讨了模式评估的各种方法,如提升度、X^2检验、全置信度和余弦度量。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

*** 频繁项集 闭项集 关联规则
1) [X] 概念 [100%]
   1) [X] 支持度 support(A=>B) = P(A ∩ B)
   2) [X] 置信度 confidence(A=>B) = P(B | A)
   3) [X] 项集 项的集合
** 挖掘频繁模式方法
*** Aprioir FP-growth
1) [X] 概念与技术 [3/3]
   1) [X] Aprioir
      浪费空间与时间的做法
   2) [X] FP-growth
      构建类似字典树来整合空间与时间关系
   3) [X] 垂直数据格式挖掘频繁项集
** 挖掘闭模式和极大模式
1) [X] 概念与技术 [2/2]
   1) [X] 闭模式 [2/2]
      1) [X] 朴素方法
         频繁项集 的 完全集 , 删除是其他项集 的 真子集 , 并且 具有 相同 的 支持度
         这种 方法 开销 很大 .
      2) [X] 改进方法 [3/3]
         在 挖掘 过程 直接搜索 闭 频繁项集, 也就是 识别出 闭项集 然后 尽快对 搜索空间 减枝 .
         减枝 包括
         1) [X] 项合并
            X 的 每个 事物 包含 Y , 但是 不包含 Y 的 任何 真超集 . X U Y  成为 一个 闭频繁 项集 , 不必 搜索 包含 X 不 包含 Y 的 项集 .
         2) [X] 子项集 减枝
            X 是 Y 的 真子集 and support(X) == support(Y) 那么 X 与 X 在 集合 枚举树 中的所有后代 都不是 闭频繁项集 .
         3) [X] 项跳过
            深度有限的挖掘中, 每一层 都有 一个 与 头表和投影数据库相关连的前缀 X, 如果一个局部频繁项 p 不同的头表都有相同的 支持度 那么就可以从 高层的头表中裁剪掉.
   2) [X] 极大模式
      可以将 闭模式 的 挖掘技术 相应的 嵌套在 极大模式上
** 模式评估方法
1) [X] 从关联分析到相关分析 [5/5]
   1) [X] 提升度
      lift(A, B) = P(A ∪ B) / (P(A) * P(B))
      小于 1 负相关 大于1 正相关 1 是独立的
   2) [X] X^2 检验
      X^2 = sum((observe_value - expection_value)^2 / expection_value)
      然后根据自由度使用相依表
   3) [X] 全置信度
      all_conf(A, B) = sup(A union B) / max(support(A), support(B)) = min(P(A | B), P(B | A))
   4) [X] Kulczynski(Kulc) 度量
      Kulc(A, B) = (P(A | B) + P(B | A))/ 2
      可以看做两个置信度的平均值
   5) [X] 余弦度量
      cosine(A, B) = P(A ∪ B) / (P(A) * P(B)) ^ (1/2) = (P(A | B) * P(B | A)) ^ (1/2)
      可以看做 调和 提升度量
2) [X] 小结 [4/4]
   1) [X] 提升度 和 X^2 模式关联 分析 能力 有欠缺
   2) [X] 零事物 (null transaction)
      不包含 任何考察项集的事物
   3) [X] 不平衡比 IR(Imbalance Ratio)
      IR(A, B) = abs(sup(A) - sup(B)) / (sup(A) + sup(B) - sup(A ∪ B))
      如果 A, B 方向的蕴含 相同, 则IR(A, B) = 0
      IR 的值 越大越不平衡
   4) [X] 推荐
      Kluc 与 不平衡比 配合使用
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值