数据挖掘与关联规则挖掘入门
1. 数据挖掘简介
1.1 什么是数据挖掘
让我们先从超市的交易数据说起。比如有以下交易记录:
- Smith milk, Sunshine bread, GIS sugar
- Pauls milk, Franklin bread, Sunshine biscuit
- Yeung milk, B&G bread, Sunshine chocolate
过去,超市经验丰富的决策者可能会总结出一些模式,如“顾客买牛奶时也会买面包”用于预测顾客行为,“顾客喜欢买Sunshine品牌的产品”用于估计新产品的销量。
数据挖掘可以从这样的数据中发现有用信息,严格来说,数据挖掘是从存储在数据库、数据仓库或其他信息存储库中的大量数据里发现有价值信息的过程,这些信息可以是模式、关联、变化、异常和重要结构等,即数据挖掘试图从数据中提取潜在有用的知识。
数据挖掘与传统统计不同,传统统计推断是假设驱动的,即先形成假设再依据数据验证;而数据挖掘是发现驱动的,模式和假设是从数据中自动提取的。关联规则挖掘是数据挖掘的一个重要领域,自1993年提出以来受到了广泛关注,主要用于识别高频且强相关的项集之间的关联关系。
1.2 为什么需要数据挖掘
需要数据挖掘主要有两个原因:
- 难以发现有用模式 :对于缺乏经验的决策者来说,像上述交易数据中的潜在模式并不明显,即使是经验丰富的决策者,面对数据库中隐藏的如负关联和因果关系等有用模式,也会因信息过多而难以手动发现。
- 数据量过大
数据挖掘与关联规则入门
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



