数据挖掘笔记(4)——关联规则

本文介绍了关联规则挖掘的基本概念,包括事务、项、项集、支持度及置信度等,并详细阐述了挖掘步骤,从数据预处理到规则分析,同时讨论了如何通过减少候选项集和构建hash树来降低计算量。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

基本概念

        事务:每一个记录

        项:记录中的每一个

        项集:项的组合构成一个项集

        支持度:同时出现的概率,P(AB)

        置信度: P(B | A)

        发现有意义的规则: 最小支持度和最小置信度

挖掘步骤

      1.数据预处理

      2.发现频繁项目集: 使用最小支持度进行筛选

      3.由频繁项目生成关联规则: 满足最小置信度

      4.对关联规则分析

降低计算量

        减少候选项集: 频繁项集的子集也是频繁的 ,非频繁集的超集也是非频繁的

        构造hash树,不是和每个事务对比

        频繁模式增长 FB树 

基本算法

        1. 多循环方式的挖掘算法

        2. 增量式更新算法

        3. 并行发现算法

        4. 多层关联规则: 把小概念项的概念进行提升,如蒙牛提升为牛奶

        5. 量化属性关联规则: 转换为布尔类型

        6. 基于约束的关联规则

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值