数据降维与矩阵分解技术全解析
1. 主成分分析(PCA)基础与最佳维度选择
在分类手写数字时,PCA 是一种常用的降维技术。以 600 个数字 1 和 600 个数字 7 的示例数据为例,我们将一半数据用于训练,另一半用于测试。在训练过程中,又将 600 个训练样本进一步划分为 400 个训练集和 200 个验证集。
具体操作步骤如下:
1. 使用 PCA 对输入数据进行降维处理。
2. 利用最近邻算法对 200 个验证示例进行分类。
3. 尝试不同的降维维度,并根据验证结果选择最优维度。
通过绘制验证误差图(如图 15.7),我们可以发现维度为 19 时较为合理,在 600 个独立测试示例上使用 19 维的独立测试误差为 14。
数据的“内在”维度
从理论上讲,线性子空间的维度可以通过特征值谱来判断。重构误差与丢弃的特征值之和成正比,如果数据接近一个 M 维线性子空间,我们会看到 M 个大特征值,其余特征值非常小。这就为数据的自由度或内在维度提供了一个指示,对应小特征值的方向可被解释为“噪声”。
非线性降维思考
虽然 PCA 假设数据接近线性子空间,但实际上数据往往位于低维非线性子空间,并且数据通常是聚类的。然而,由于线性降维在计算上相对简单,它仍然是最常见的降维技术之一。
2. 高维数据的 PCA 处理
计算一个 D × D 矩阵的特征分解的计算复杂度为 O(D³)。当处理高维数据时,直接进行特征分解会面临巨大的计算挑战。例如,500 张 1000 × 1000 像素的图像,其协方差矩阵将是一个 10⁶ × 10⁶
超级会员免费看
订阅专栏 解锁全文
57

被折叠的 条评论
为什么被折叠?



