统计数据挖掘:方法与挑战
1. 引言
“数据挖掘”,特别是“统计数据挖掘”,在统计学家眼中既是“弃儿”,也是“宠儿”。对于许多传统训练的统计学家来说,数据挖掘意味着抛弃统计分析的概率根源。因为数据挖掘技术通常应用的数据集是机会性获取的,最初用于其他目的,如行政记录或库存控制,并非按照广泛接受的随机抽样方案收集,所以从特定数据集推断一般情况在通常的统计意义上是无效的。然而,数据挖掘技术在市场上已证明了其价值。近年来,统计学界对分析这种新数据范式的方法也表现出了浓厚兴趣。
图基(Tukey)在1962年的论文《数据分析的未来》以及1977年的《探索性数据分析》一书中,提出了统计分析的新范式。与假设统计模型并对其参数进行推断的验证性分析不同,探索性数据分析(EDA)基于我们不一定知道模型假设是否适用于所研究数据这一事实。由于数据可能不符合验证性分析的假设,基于无效模型假设的推断可能会产生(潜在的严重)错误。因此,需要探索数据以验证模型假设是否适用于手头的数据,并且可以利用探索性技术发现数据中意想不到的结构。随着强大个人计算能力的兴起,这种更积极的EDA形式开始流行,它不仅用于验证潜在的模型假设,还用于揭示数据中意想不到的结构。
在过去十年中,计算机科学家在数据库和信息系统框架下得出结论,认为可以使用更强大的数据分析形式来挖掘数据库中的数据,这一工作被表述为数据库中的知识发现(KDD)和数据挖掘。该领域的一本标志性书籍是(Fayyad等人,1996)。统计界的EDA和计算机科学界的KDD的融合催生了被广泛认可为数据挖掘的丰富但有些紧张的合作。
数据挖掘有很多定义,我们倾向的定义是由Wegman在2003年给出的:数据挖掘是探索性数据分析的扩展,基本目标相同,即发现数据
超级会员免费看
订阅专栏 解锁全文
3589

被折叠的 条评论
为什么被折叠?



