第六章(1) 关联分析:基本概念

关联分析用于从大型数据集中发现有意义的联系,以关联规则和频繁项集表示。支持度和置信度是衡量规则强度的关键指标。支持度表示规则在数据集中的频繁程度,置信度衡量在包含前件的事务中出现后件的频率。Apriori算法是常用的关联规则挖掘方法,通过频繁项集和规则产生来降低计算复杂度。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  1. 关联分析:发现隐藏在大型数据集中的有意义的联系;所发现的联系可以用关联规则和频繁项集来表示
  2. 两个问题:
    1. 从大型事务数据集中发现联系的开销大
    2. 所发现的联系需要验证
  3. 问题定义:
    1. 二元表示:购物篮事务每行对应一个事务,每列对应一个项,项在事务中的值为0或1,出现很重要,所以是非对称二元变量
    2. 项集和支持度计数:事务的宽度是事务中出现项的个数;项集的支持度计数即包含该项集的事务个数
    3. 关联规则:关联规则的强度用支持度和置信度度量
      1. 支持度:确定规则可以用于给定数据集的频繁程度
      2. 置信度:确定Y在包含X的事务中出现的频繁程度
      3. 支持度代表规则出现程度,置信度通过规则进行推理具有可靠性
      4. 关联分析做出的推论并不必然蕴含因果关系,这只表示规则前后件中的项明显的同时出现;因果关系需要关于数据中原因和结果属性的知识
    4. 关联规则的发现:对给定事务集合T,关联规则发现是指找出支持度和置信度>=阈值的规则
    5. 从包含多个项的数据集中提取规则的直接办法开销很大,提高效率的方法是拆分支持度和置信度要求,一种策略:
      1. 频繁项集的产生:从项集中找到满足最小支持度阈值的项集,即频繁项集
      2. 规则的产生:从频繁项集中提取满足最小置信度阈值的规则,即强规则
  4. 频繁项集的产生:
    1. 两种降低频繁项集的计算复杂度的策略:
      1. 减少候选项集的数目:先验原理Apriori
      2. 减少比较次数:替代每个候选项集和每个事务相匹配,使用更高级的数据结构、存储候选项集、压缩数据集
    2. 先验原理:如果一个项集是频繁的,则它的所有子集是频繁的;相反,子集如果是非频
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值