概述
Principle Component Analysis,主成分分析,致力于解决三个问题:
- 缓解维度灾难,简化运算,在压缩数据的同时让信息损失最小化;
- 实现多维数据可视化,可以选取2个或3个主成分作为数据代表进行可视化。
在介绍 PCA 之前,不妨先考虑这样一个问题:对于正交属性空间中的样本点,如何用一个超平面(直线的高维推广)对所有样本进行恰当的表达?
容易想到,若存在这样的超平面,那么它大概应具有这样的性质:
最近重构性:样本点到这个超平面的距离都足够近;
最大可分性:样本点在这个超平面上的投影能尽可能分开.
内积、基、协方差矩阵相关介绍可参考【机器学习】降维——PCA(非常详细) - 知乎
PCA流程:(假设m条n维数据)
- n行m列矩阵X,一列是一个样本,将X的每一行进行零均值化(中心化),即减去这一行的均值;
- 求出协方差矩阵