0.概述
在数据挖掘或者图像处理等领域经常用到主成分分析 PCA,其用意是使待分析的数据维度降低,但是数据的主要信息还能保留下来,即采用低维的数据可以实现对高维信息的编码和还原,低维的信息可以理解为高维信息的某种隐因子或隐变量(latent feature or latent variable)。
1.数据降维
假设数据分布如下图所示,在3D里面像螺旋的样子,但是用3D空间来描述这些数据其实很浪费存储资源,其实从资源角度理解:把这个类似地毯卷起来的东西把它摊开就变成这样右图。所以我们需要在2D的空间就可以描述这个3D的信息,根本不需要把这个问题放到这个3D来解,这是把问题复杂化,可以在2D就实现这个任务,这就实现了数据的降维。
上述数据从3D空间向2D空间转化,可以理解为寻找一个函数,这里
的输入是一个D维向量