PCA的意义
机器学习中的主要问题:维度灾难
PCA:在力求数据信息丢失最少的原则下,对高纬度的变量空间降维 ,即研究指标体系的少数几个线性组合,并且这几个线性组合所构成的综合指标将尽可能多的保留信息。这些综合指标就称为主成分 。
PCA推导
该X的协方差矩阵 为
由于此矩阵为非负定的对称阵,则有利用线性代数的知识可得,比存在正交矩阵U,使得 :
其中P个特征值,假设大小是降序。
而U恰好是由特征根相对应的特征向量所组成的正交阵
这里,由U的第一列元素所工程为原始变量的线性组合有最大的方差 。 (证明比较复杂,可自行研究)
有些时候,第一主成分不足,所以要寻找第二主成分.
第二主成分
在约束条件cov(F1,F2)=0下,寻找第二主成分F2=U12X1+…+Up2Xp