降维就是 发现数据中非线性与非局部的关系,而这些关系在原始的特征空间中是不明显的。如果我们能够减少某些数据的维度,我们就可以将其可视化,因为在二维和三维中的投影可以绘制出来。在一个具有多维度的数据集上训练一个数据模型,通常很多复杂,而且容易发生过拟合。并非所有的特征都和我们要解决的问题是相关的。如果我们能够减少维度就可以减少噪音也就是数据中无关紧要的部分。
降维分为两个部分即特征选择和特征抽取。
特征选择是指找到与问题相关的特征,选择依据可以基于我们个人的直觉或者我们可以训练一个模型让它找到最佳特征(深度学习)。特征抽取是指把数据从高纬度空间转到低纬度空间之后找到新的特征。降维的一种方法是主成分分析(PCA),PCA将原有的变量转换成一组新的变量,而新的变量是原变量的线性组合,这些新的变量被称作主成分。PCA是一次正交线性变换,将原有的数据转到新的坐标系,这样投影之后,第一个主成分的方差最大,第二个成分方差第二,以此类推。方差是用来衡量数据是如何分布的。一个篮球队球员身高方差是很小的,但加入一组小学生身高数据后,整个数据集的方差便会很大。
PCA第一步是将数据标准化,PCA是一个最大化方差的过程,它将原有的数据投射到某一个方向以最大化方差。我们画出一个小的数据集不同主成分之间的方差,好像只需要一个成分就可以解释数据集中所有的方差。但是如果先对数据进行标准化,可以看出其他成分也会对总的方差有一定贡献。

标准化是指数据用同一个单位来衡量,比如用克表示重量这意味着数据的方差为1,平均值为零。方差可以说明一组测量值与平均值有多分散,一旦我们数据标准化,我们将进行特征分解。在线性代数中,特征向量是在线性变化下方向不会改变的向量。
总的来说,主成分分析将数据集转化到一个低维子空间,所以能够进行可视化,从而我们可以找到其中隐含关系。主成分就是结合特征值的特征向量,它们描述了在初始特征空间的数据中最大方差的方位,方差衡量了数据到底有多分散。
本文探讨了降维技术在数据分析中的应用,重点介绍了主成分分析(PCA)的方法。PCA通过将数据转换到低维子空间,实现数据可视化并揭示隐藏关系。文章详细解释了PCA的步骤,包括数据标准化、特征分解等。

3093

被折叠的 条评论
为什么被折叠?



