1、数据挖掘与关联规则挖掘入门

数据挖掘与关联规则入门

数据挖掘与关联规则挖掘入门

1. 数据挖掘简介

1.1 什么是数据挖掘

让我们先从超市的交易数据说起。比如有以下交易记录:
- Smith milk, Sunshine bread, GIS sugar
- Pauls milk, Franklin bread, Sunshine biscuit
- Yeung milk, B&G bread, Sunshine chocolate

过去,超市经验丰富的决策者可能会总结出一些模式,如“顾客买牛奶时也会买面包”用于预测顾客行为,“顾客喜欢买Sunshine品牌的产品”用于估计新产品的销量。

数据挖掘可以从这样的数据中发现有用信息,严格来说,数据挖掘是从存储在数据库、数据仓库或其他信息存储库中的大量数据里发现有价值信息的过程,这些信息可以是模式、关联、变化、异常和重要结构等,即数据挖掘试图从数据中提取潜在有用的知识。

数据挖掘与传统统计不同,传统统计推断是假设驱动的,即先形成假设再依据数据验证;而数据挖掘是发现驱动的,模式和假设是从数据中自动提取的。关联规则挖掘是数据挖掘的一个重要领域,自1993年提出以来受到了广泛关注,主要用于识别高频且强相关的项集之间的关联关系。

1.2 为什么需要数据挖掘

需要数据挖掘主要有两个原因:
- 难以发现有用模式 :对于缺乏经验的决策者来说,像上述交易数据中的潜在模式并不明显,即使是经验丰富的决策者,面对数据库中隐藏的如负关联和因果关系等有用模式,也会因信息过多而难以手动发现。
- 数据量过大

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值