做分类器前,需要对数据进行清理及预处理,如处理缺失数据、数据的归一化等,在获得初始特征向量后,用PCA进行特征选择,得到特征向量及对应数据,训练分类器,那么PCA是什么呢?
http://blog.codinglabs.org/articles/pca-tutorial.html
PCA(Principal Component Analysis)是常用的数据分析方法,PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。
PCA算法
总结一下PCA的算法步骤:
设有m条n维数据。
1)将原始数据按列组成n行m列矩阵X
2)将X的每一行(代表一个属性字段)进行零均值化,即减去这一行的均值
3)求出协方差矩阵C=1mXX