1、统计数据挖掘:方法与挑战

统计数据挖掘:方法与挑战

1. 引言

“数据挖掘”,特别是“统计数据挖掘”,在统计学家眼中既是“弃儿”,也是“宠儿”。对于许多传统训练的统计学家来说,数据挖掘意味着抛弃统计分析的概率根源。因为数据挖掘技术通常应用的数据集是机会性获取的,最初用于其他目的,如行政记录或库存控制,并非按照广泛接受的随机抽样方案收集,所以从特定数据集推断一般情况在通常的统计意义上是无效的。然而,数据挖掘技术在市场上已证明了其价值。近年来,统计学界对分析这种新数据范式的方法也表现出了浓厚兴趣。

图基(Tukey)在1962年的论文《数据分析的未来》以及1977年的《探索性数据分析》一书中,提出了统计分析的新范式。与假设统计模型并对其参数进行推断的验证性分析不同,探索性数据分析(EDA)基于我们不一定知道模型假设是否适用于所研究数据这一事实。由于数据可能不符合验证性分析的假设,基于无效模型假设的推断可能会产生(潜在的严重)错误。因此,需要探索数据以验证模型假设是否适用于手头的数据,并且可以利用探索性技术发现数据中意想不到的结构。随着强大个人计算能力的兴起,这种更积极的EDA形式开始流行,它不仅用于验证潜在的模型假设,还用于揭示数据中意想不到的结构。

在过去十年中,计算机科学家在数据库和信息系统框架下得出结论,认为可以使用更强大的数据分析形式来挖掘数据库中的数据,这一工作被表述为数据库中的知识发现(KDD)和数据挖掘。该领域的一本标志性书籍是(Fayyad等人,1996)。统计界的EDA和计算机科学界的KDD的融合催生了被广泛认可为数据挖掘的丰富但有些紧张的合作。

数据挖掘有很多定义,我们倾向的定义是由Wegman在2003年给出的:数据挖掘是探索性数据分析的扩展,基本目标相同,即发现数据

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值