高维学习中的维度降维与主成分分析
在数据处理和分析中,高维数据的处理一直是一个具有挑战性的问题。随着数据规模和维度的不断增加,传统的数据分析方法往往难以应对,因此维度降维技术变得至关重要。本文将介绍维度降维的相关概念、方法,重点探讨主成分分析(Principal Components,PCs)这一经典的维度降维技术。
维度降维的必要性
一个典型的数据集可以表示为 $n$ 个长度为 $p$ 的向量 $\mathbf{x} = (x_1, \cdots, x_p)$ 的集合,通常将它们建模为单个随机变量 $\mathbf{X} = (X_1, \cdots, X_p)$ 的独立同分布结果。传统数据集的 $p$ 值较小,$n$ 值为中小规模,且 $p < n$。然而,当前出现的数据集更加复杂多样,样本量可能非常大,以至于无法实时计算均值;维度 $p$ 可能大到无法获得现实的样本量。此外,$\mathbf{X}$ 可能是波形、具有许多边和顶点的图、图像或文档,数据集往往是多类型的,即结合了不同性质的数据类。在这些情况下,数据的复杂性使得推理变得几乎不可能,因此维度降维(即减少所考虑的随机变量的数量)变得至关重要。
维度降维的两种方式
维度降维有两种方式:
1. 变量选择 :在选择了解释变量的函数后,选择最重要的那些。这包括一些成熟的模型选择技术,如 AIC、BIC、交叉验证、Mallows Cp、前向和后向消除等,以及一些较新的技术,如 LASSO 和正则化。这些方法通常在一组被认为对建模有用的变量中进行选择,通常是结果本身。
2. 特征提取 :不局限于直接使用解
超级会员免费看
订阅专栏 解锁全文
729

被折叠的 条评论
为什么被折叠?



