1、统计数据挖掘：方法与挑战

最新推荐文章于 2025-12-14 23:34:15 发布

peach

最新推荐文章于 2025-12-14 23:34:15 发布

阅读量11

点赞数

CC 4.0 BY-SA版权

分类专栏：数据挖掘与可视化的艺术文章标签：数据挖掘统计方法探索性数据分析

本文链接：https://blog.youkuaiyun.com/peach/article/details/155008880

数据挖掘与可视化的艺术专栏收录该内容

64 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

统计数据挖掘：方法与挑战

1. 引言

“数据挖掘”，特别是“统计数据挖掘”，在统计学家眼中既是“弃儿”，也是“宠儿”。对于许多传统训练的统计学家来说，数据挖掘意味着抛弃统计分析的概率根源。因为数据挖掘技术通常应用的数据集是机会性获取的，最初用于其他目的，如行政记录或库存控制，并非按照广泛接受的随机抽样方案收集，所以从特定数据集推断一般情况在通常的统计意义上是无效的。然而，数据挖掘技术在市场上已证明了其价值。近年来，统计学界对分析这种新数据范式的方法也表现出了浓厚兴趣。

图基（Tukey）在1962年的论文《数据分析的未来》以及1977年的《探索性数据分析》一书中，提出了统计分析的新范式。与假设统计模型并对其参数进行推断的验证性分析不同，探索性数据分析（EDA）基于我们不一定知道模型假设是否适用于所研究数据这一事实。由于数据可能不符合验证性分析的假设，基于无效模型假设的推断可能会产生（潜在的严重）错误。因此，需要探索数据以验证模型假设是否适用于手头的数据，并且可以利用探索性技术发现数据中意想不到的结构。随着强大个人计算能力的兴起，这种更积极的EDA形式开始流行，它不仅用于验证潜在的模型假设，还用于揭示数据中意想不到的结构。

在过去十年中，计算机科学家在数据库和信息系统框架下得出结论，认为可以使用更强大的数据分析形式来挖掘数据库中的数据，这一工作被表述为数据库中的知识发现（KDD）和数据挖掘。该领域的一本标志性书籍是（Fayyad等人，1996）。统计界的EDA和计算机科学界的KDD的融合催生了被广泛认可为数据挖掘的丰富但有些紧张的合作。

数据挖掘有很多定义，我们倾向的定义是由Wegman在2003年给出的：数据挖掘是探索性数据分析的扩展，基本目标相同，即发现数据