从传统数据分析方法到大数据分析
1. 从数据分析到数据挖掘:探索与预测
1.1 数据分析
数据分析主要指描述性和探索性方法,也称为无监督方法。其目标是描述和构建一组数据,这些数据可以用一个跨越 n 个统计单元和 p 个变量的矩形表来表示。通常将 n 个观测值视为 p 维向量空间中的点,如果该空间具有距离度量,则为欧几里得空间。数值变量是 n 维空间中的向量。
数据分析方法本质上是降维方法,可分为两类:
- 因子方法 :包括针对数值变量的主成分分析和针对类别变量的对应分析。这些方法会生成新的数值变量,它们是原始变量的组合,能够在低维空间中进行表示。从数学角度看,这些是数据表奇异值分解的变体。
- 无监督分类方法或聚类 :将观测值或变量划分为同质组。主要算法有层次聚类(通过单元的连续聚类逐步构建类)和基于 k - 均值的直接划分搜索。
1.2 数据挖掘
数据挖掘始于 20 世纪 90 年代,是统计学与信息技术(数据库、人工智能、机器学习等)交叉领域的一项运动。它旨在发现大型数据集中的结构,并推广新工具,如关联规则。数据挖掘的隐喻意味着数据中隐藏着宝藏或有价值的信息,可以通过专门工具发现。
数据挖掘是知识发现过程的一个步骤,涉及应用数据分析算法。它分析为其他目的收集的数据,通常是对数据库的二次分析,这些数据库是为管理个体数据而设计的,不关注有效收集数据(如调查、实验设计)。
数据挖掘还试图找到响应变量 Y 的预测模型,但与传统建模的视角截然不同。模型只是一种算法,而不是生成数据的机制的表示。通过探索一组线