油管最火十分钟机器学习数学课-降维

最新推荐文章于 2022-10-26 14:48:42 发布

原创最新推荐文章于 2022-10-26 14:48:42 发布 · 203 阅读

CC 4.0 BY-SA版权

本文探讨了降维技术在数据分析中的应用，重点介绍了主成分分析（PCA）的方法。PCA通过将数据转换到低维子空间，实现数据可视化并揭示隐藏关系。文章详细解释了PCA的步骤，包括数据标准化、特征分解等。

降维就是发现数据中非线性与非局部的关系，而这些关系在原始的特征空间中是不明显的。如果我们能够减少某些数据的维度，我们就可以将其可视化，因为在二维和三维中的投影可以绘制出来。在一个具有多维度的数据集上训练一个数据模型，通常很多复杂，而且容易发生过拟合。并非所有的特征都和我们要解决的问题是相关的。如果我们能够减少维度就可以减少噪音也就是数据中无关紧要的部分。

降维分为两个部分即特征选择和特征抽取。

特征选择是指找到与问题相关的特征，选择依据可以基于我们个人的直觉或者我们可以训练一个模型让它找到最佳特征（深度学习）。特征抽取是指把数据从高纬度空间转到低纬度空间之后找到新的特征。降维的一种方法是主成分分析（PCA），PCA将原有的变量转换成一组新的变量，而新的变量是原变量的线性组合，这些新的变量被称作主成分。PCA是一次正交线性变换，将原有的数据转到新的坐标系，这样投影之后，第一个主成分的方差最大，第二个成分方差第二，以此类推。方差是用来衡量数据是如何分布的。一个篮球队球员身高方差是很小的，但加入一组小学生身高数据后，整个数据集的方差便会很大。

PCA第一步是将数据标准化，PCA是一个最大化方差的过程，它将原有的数据投射到某一个方向以最大化方差。我们画出一个小的数据集不同主成分之间的方差，好像只需要一个成分就可以解释数据集中所有的方差。但是如果先对数据进行标准化，可以看出其他成分也会对总的方差有一定贡献。