3、数据挖掘技术全解析:从基础到应用

数据挖掘技术全解析:从基础到应用

1. 关联规则与市场篮子分析

关联规则在数据挖掘中有着重要的应用。它可以进行修改以适应不同的时间段,例如“尿布 → 啤酒(20%支持度) 工作日晚上7:00 - 9:00”。还存在广义关联规则,由商品层次结构(UPC代码)组成,像“衣服 → 鞋类”规则可能成立,即便“衣服 → 鞋子”规则不成立。

关联规则可以用贝叶斯网络表示,它能以有向无环图的形式高效表示概率分布,图中节点代表感兴趣的属性,边表示节点间的因果影响,并且给出节点的所有可能条件概率。

对关联规则进行优化也是有意义的。例如,给定规则 (I < A < u) 和 X → Y,找到 I 和 u 的值,使规则的支持度大于某个阈值,并最大化支持度置信度或增益。比如对于规则 “ChkBal[I u] → DvDPlayer”,选择 I = $30000 和 u = $50000 可优化该规则的支持度置信度或增益。

市场篮子分析有诸多优点,如结果易于理解、支持无向数据挖掘、适用于可变长度数据,且规则相对容易计算。但也存在一些弱点,比如难以确定最佳商品数量、忽略稀有商品、支持度有限。若考虑 n 个商品,“A → B” 形式的规则有 (C_{n}^2) 种可能,“A&B → C” 形式的规则有 (C_{n}^3) 种可能,随着 n 的增加,可能的关联规则数量呈指数增长。

2. 数据挖掘相关术语

在计算机科学领域,数据挖掘方法的历史根源讨论离不开术语。通常从 p 空间中的 n 个观测值开始数据分析过程。数学领域所说的维度,在统计学中称为变量,在计算机科学中称为属性;数学领域的观测值(数据矩阵的一行),在统计学中称为案例,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值