主成分分析方法(Principal components analysis)
在降维算法中,比较普遍的是使用主成分分析方法(PCA)
PCA算法简单示例
如图,假设我们有一个二维的特征,想要将其降为一维,简单的方法是寻找一条直线,图中选择的是过原点斜率为正的直线,可以观察到,每个样本点到直线之间的距离都很小,这就是PCA算法实现的结果,每个样本点到直线或低维平面的距离叫做投影误差,而PCA的目的简单来说就是寻找到一个投影平面,使得所有样本点的投影误差最小。
往往在实行PCA算法之前,我们会进行均值归一化和特征规范化处理,使的特征的均值为0,并使得其数据在可比较的范围内,有利于对预测结果的判断。一般来说我们会用
来表示那条直线也就是向量,但对于一般的问题来说,往往都是将n维的数据降为K维,以把三维数据降为二维为例,降维后我们会得到两个向量,这两个向量会组成一个平面,降维前的数据点就会投影到这上面,所以我们会得到一组K维的向量组。
注意,PCA在将二维降成一维的时候,拟合的向量有时会跟线性回归拟合直线很像,但实际上这是两个不同的东西,直观来讲就是前者是计算点到直线的距离,做的是垂线,