一、主成分分析
维度是数据科学中的一个关键属性,维度是数据集的所有特征。例如,如果您正在查看包含音乐片段的数据集,维度可能是流派、片段的长度、乐器的数量、歌手的存在等等。
您可以将所有这些维度想象为不同的列。当只有两个维度时,可以使用X和Y轴绘制它。如果添加颜色,您可以表示第三个维度。如果你有几十个或几百个维度,它也是类似的,只是更难具象化它。
当你有这么多维度时,其中一些是相关的。例如,我们可以想当然地认为一段音乐的流派将与该作品中出现的乐器相关。降低维度的一种方法是只保留其中的一些维度。但很有可能丢失了代表性强的信息。所以需要一种方法可以减少这些维度,同时保持数据集中存在重要信息。
主成分分析(PCA) 的目的是减少数据集的维数。PCA为我们提供了一组新的维度,即主成分(PC)。它们是有序的:第一个主成分是与最大方差相关的维度。此外,主成分是正交的。请记住,正交向量意味着它们的点积等于0。这意味着每个主成分都与前一个主成分不相关。您可以选择只保留前几个主成分,因为每个