【数据挖掘概念与技术】学习笔记6-挖掘频繁模式、关联和相关性:基本概念和方法(编缉中)

本文介绍了数据挖掘中的频繁模式概念,包括频繁项集、关联规则、支持度和置信度。通过购物篮分析示例展示了如何发现商品关联,并解释了Apriori算法及其先验性质在挖掘过程中的应用。此外,还提到了有趣模式的评估方法和关联分析向相关分析的拓展。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

基本概念

  1. 频繁模式是频繁地出现在数据集中的模式(如项集、子序列或子结构)。频繁模式挖掘给定数据集中反复出现的联系。
  2. “购物篮”例子,想象全域是商店中商品的集合,每种商品有一个布尔变量,表示该商品是否出现。则每个购物篮可以用一个布尔向量表示。分析布尔向量,得到反映商品频繁关联或同时购买的购买模式。这些模式可用关联规则来表示。如computer-->antivirus_software[support=2%;confidence=60%]。规则的支持度和置信度是规则兴趣度的两种度量,分别反映所发现规则的有用性和确定性。如果关联规则满足最小支持度阈值和最小置信度阈值,则它是有趣的。
  3. 设A、B是两个项集(如商品的集合),关联规则A-->B,支持度s是事务中包含A U B(即集合A和B的并或A和B二者)的百分比,概率P(A U B)。置信度c是事务中包含A的事务同时也包含B事务的百分比,P(B | A)。
  4. 同时满足最小支持度阈值和最小置信度阈值的规则称为强规则
  5. 项集的出现频度(简称项集的频度、支持度计数、计数)是包含项集(如2项集{computer,antivirus_software})的事务数。关联规则中的项集支持度support有时称为
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值