PCA算法的最终目标是把高维数据进行降维。之所以要降维,是因为数据在低维空间中处理起来更简单。可以用一个最简单的例子来说明降维,在三维空间中有一个球,我们可能希望研究一下球的几何性质,这个时候希望把它画在纸上(二维平面),那么怎么把它投影(project)到二维平面上就是一个降维的过程。这里的关键在于你投到二维平面上时,要看起来仍然要和原来在三维空间中的那个球达到最大相似,你不能把一个球经过降维之后变成了一个圆。而这正是PCA要干的事情,识别出原空间中最重要的多个特征(最重要的特征才能做到最相似)。这算是刚开始以一种最直观的方式看PCA。
假设针对一个物体进行建模,拥有了m维的数据,但其中有两维的数据是线性相关的,即知道其中一个数据,就能推测出另一个数据。我们要做的就是找出这种线性相关的数据,并把它剔除掉,同时尽可能的保证原有的数据信息。
PCA过程:
输入10组2维的数据,将其简化为k维的数据。