主成分分析
主成分分析(PCA)是一种能够极大提升无监督特征学习速度的数据降维算法。
解决步骤
计算协方差矩阵
首先计算出矩阵,如下所示:
假设 的均值为零,那么
就是x的协方差矩阵。
计算特征向量
计算出协方差矩阵的特征向量,按列排放,而组成矩阵:
此处, 是主特征向量(对应最大的特征值),
是次特征向量。以此类推,另记
为相应的特征值。
基表示
我们可以把 用
基表达为:
数据降维
通过设定的值,确定k的大小,即降到k维。
以处理图像数据为例,一个惯常的经验法则是选择k以保留99%的方差,即