六 关联分析:基本概念和算法1

本文深入探讨了著名的啤酒尿布问题,介绍了项集、事务、支持度计数、关联规则等概念,以及关联规则的强度指标——支持度和置信度。通过Apriori算法的讲解,展示了如何利用先验原理进行频繁项集的产生,实现候选项集的有效剪枝。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

啤酒尿布问题
在这里插入图片描述

6.1 问题定义

二元表示:
在这里插入图片描述
项集、事务和支持度计数:包含0个或多个项的集合被称为项集,k-项集;真实存在的项集称为事务;包含特定项集的事务个数称为项集的支持度计数。
关联规则:蕴含表达式X->Y
关联规则的强度:支持度和置信度,支持度可以用于给定数据集的频繁程度,置信度确定Y包含X的事务中出现的频繁程度。
在这里插入图片描述
关联规则挖掘问题的形式化描述:
在这里插入图片描述
在这里插入图片描述

6.2 频繁项集的产生

候选项集,通过比较候选项集包含在事务中来增加支持度计数。
(1)减少候选项集的数目
(2)较少比较次数

6.2.1 先验原理

描述如何使用支持度度量,来减少频繁项集产生需要探查的候选项集的个数。
在这里插入图片描述
基于支持度的剪枝;一个项集的支持度绝不会超过它的子集的支持度。

6.2.2 Apriori算法的频繁项集的产生

基于支持度的剪枝计数,系统控制候选项集指数增长。
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值