7 主成成分分析(PCA)降维算法
Principal Component Analysis,PCA是一种常用的降维方法,通常用于高维数据集的探索与可视化,还可以用作数据压缩和预处理等。
回顾统计学名词:
方差:
协方差:用于度量两个变量之间的线性相关性程度
特征向量:描述数据集结构的非零向量
PCA的原理:
矩阵的主成分就是其协方差矩阵对应的特征向量,按照对应的特征值大小进行排序,最大的特征值就是第一主成分,其次是第二主成分,以此类推。(推到过程参见《机器学习》南京大学周志华。)