这里我们学习一种新的降维算法PCA:
如下图所示,我们训练集在一个二维坐标中 ,PCA的思想就是将这些二维特征降为一维的。所以PCA算法就会去找到一条如图红色的直线,使得每个数据到这条线的的垂直距离和最小。
PCA算法就是要得出下图左边的向量u(1),从而得出红色的直线(对于二维降为一维);或者如下图右边所示,得出两个方向向量u(1)、u(2),从而得出红色的平面,使得每个点到该平面的距离之和最小。
这里PCA算法的思想,和之前所学的线性回归是有区别的:
如下图,左边是线性回归的情况,右边是PCA。
对于线性回归,我们求的是预测值与实际值y的差距大小,随意我们计算的距离大小是垂直于横坐标的。
对于PCA而言,我们并没有特殊的目标y,每个点都是平等的,我们求的是每个点到红色线的垂直距离的大小。
数据的均值标准化:
PCA的降维原理分析: