本博客参考了博客https://blog.youkuaiyun.com/u013719780/article/details/51755208以及博客https://blog.youkuaiyun.com/guyuealian/article/details/68487833,向原作者表示感谢。
PCA,即主成分分析,可以用来解决数据维度灾难,将样本数据从高维空间投影到低维空间中,并尽可能在低维空间中表示原始数据。简而言之,就是根据输入数据的分布给输入数据重新找到更能描述这组数据的正交的坐标轴。
PCA的算法过程即“将所有样本x减去均值m,再乘以样本的协方差矩阵C的特征向量V”,具体计算过程如下:
(1)将原始数据按行组成m行n列样本矩阵X(每行一个样本,每列为一维特征);
(2)求出样本x的协方差矩阵C和样本均值m;
(3)求出协方差矩阵的特征值D及对应的特征向量V;
(4)将特征向量按对应特征值大小从上到下按行排列成矩阵,取前k行组成矩阵P;
(5)即为降维到k维后的数据。