降维与主成分分析(PCA)
1. 维度灾难与降维需求
在处理数据集时,当样本数量不变,但每个样本增加了额外的特征(例如增加了 z 坐标),数据所占据的空间会变大。原本可能是二维平面上的数据点,增加一个维度后,数据所占据的体积从原来的二维面积变成了三维体积。例如,原本二维空间中数据占据的面积可能是 2 x 2 = 4 平方单位,增加一个维度后,占据的数据体积变为 2 x 2 x 2 = 8 立方单位。
这就导致了数据在可用空间中占据的相对体积变小,变得更加稀疏。这种随着特征数量增加,数据稀疏性增加,进而使统计上有效的相关性分析变得更加困难的现象,被称为维度灾难。
以创建一个与人类玩家对战的视频游戏机器人为例,该问题可能有 12 种不同类型的特征,如速度、速度、加速度、技能水平、所选武器和可用弹药等。由于每个特征的可能取值范围和对数据集的方差贡献不同,数据可能会极其稀疏。即使在像《吃豆人》这样相对受限的游戏世界中,每个特征的潜在方差也可能相当大,而且不同特征之间的方差差异也很大。
在不处理数据集稀疏性的情况下,增加额外的特征虽然带来了更多信息,但由于统计相关性难以分析,可能无法提高机器学习模型的性能。因此,我们需要一种方法来保留额外特征提供的有用信息,同时尽量减少稀疏性带来的负面影响,这就是降维技术的目标。降维技术在提高机器学习模型性能方面非常强大。
2. 降维技术概述
2.1 降维技术的目标
降维技术的主要目标是在保留数据集有用信息的同时,处理数据的稀疏性。因此,降维通常是分类阶段之前的重要预处理步骤。
大多数降维技术通过特征投影的过程来完成这一任务。特征投影将数据从高维空间
超级会员免费看
订阅专栏 解锁全文
762

被折叠的 条评论
为什么被折叠?



