理解PCA算法,涉及线性代数的一些专业知识,这里不做理论上的说明和推到,单纯填下在应用中的几个坑。
首先看PCA算法流程:
需要注意的是:
输入数据中的一行(还是一列)表示一个样本?
降维降的是每个样本数据量的长度,明白这点可以确定输出数据的大小;
有两种选“主成分”的方法,一个是固定选多少个主成分,另一个是按主成分占的percentage,按需来取;
在测试的时候,数据也要先降维,直接乘以(矩阵乘法)主特征向量构成的矩阵。
理论参考文章:http://blog.codinglabs.org/articles/pca-tutorial.html