36、使用主成分分析进行特征降维与Spark应用打包部署

最新推荐文章于 2025-09-17 03:37:06 发布

Mars5

最新推荐文章于 2025-09-17 03:37:06 发布

阅读量19

点赞数

CC 4.0 BY-SA版权

分类专栏： Scala数据科学实战指南文章标签：主成分分析 PCA 特征降维

本文链接：https://blog.youkuaiyun.com/mars5/article/details/152122643

Scala数据科学实战指南专栏收录该内容

72 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

使用主成分分析进行特征降维与Spark应用打包部署

1. 特征降维概述

在数据分析和机器学习中，大量特征会导致计算成本高昂，这就是所谓的“维度灾难”。特征降维旨在减少数据中的特征数量，同时保留其变异性。手动选择和忽略某些特征是一种方法，但在处理大量特征时，识别相同或高度相关的特征非常费力。主成分分析（PCA）是一种用于监督和无监督学习的数据降维方法。

2. 监督学习数据的降维

在对监督学习的训练数据进行降维时，必须仅对训练数据应用PCA，不能使用测试集提取成分，否则会将测试数据的信息泄露到成分中，可能导致测试时准确率较高，但在实际生产数据上表现不佳。

2.1 确定主成分数量

可以通过奇异值向量来确定在保持足够高方差的情况下所需的最少主成分数量。奇异值显示了各成分捕获的方差量，第一个成分通常最重要，其贡献的方差最高，重要性会逐渐降低。以下代码可用于计算保留95%方差的主成分数量：

val dimensionDecidingSample = new RowMatrix((trainingSplit.randomSplit(Array(0.8, 0.2))(1)).map(lp => lp.features))
val svd = dimensionDecidingSample.computeSVD(500, computeU = false)
val sum = svd.s.toArray.sum
// Calculate the number of principal components which retains a variance of 95

会员秒杀 ¥9.9 重磅福利

超级会员免费看