顾名思义,主成分分析方法是找出原始数据中的主要成分,用原始数据的主要成分代替原始数据达到降维的效果。
那么我们如果寻找主成分呢?我们可以试图在样本空间中找到一个超平面,使得样本点到这个超平面的距离足够近,或者说样本点在这个超平面上的投影能尽可能的分开,这个超平面的方向即为主成分。
经过推导可知(推导过程省略),假如我们需要将n维样本数据映射为维的主成分数据,我们找到协方差矩阵
的
个最大的特征向量和它们对应的特征空间。它们组成的矩阵W就是我们需要的矩阵,将样本数据投影到W上可以得到降维后的数据。
PCA算法流程:
输入:n维样本集D=(,
,...,
),要降维到的维数n'.
输出:降维后的样本集D′
1) 对所有的样本进行中心化:
2) 计算样本的协方差矩阵
3) 对矩阵进行特征值分解
4)取出最大的n'个特征值对应的特征向量(,
,...,
), 将所有的特征向量标准化后,组成特征向量矩阵W。
5)对样本集中的每一个样本,转化为新的样本
6) 得到输出样本集D′=(,
,...,
)
PCA算法的主要优点
1)仅仅需要以方差衡量信息量,不受数据集以外的因素影响。
2)各主成分之间正交,可消除原始数据成分间的相互影响的因素。
3)计算方法简单,主要运算是特征值分解,易于实现。
PCA算法的主要缺点
1)主成分各个特征维度的含义具有一定的模糊性,不如原始样本特征的解释性强。
2)方差小的非主成分也可能含有对样本差异的重要信息,因降维丢弃可能对后续数据处理有影响。
引用《主成分分析(PCA)原理总结》
本文介绍了主成分分析(PCA)的基本原理及应用流程。PCA通过提取数据中的主要成分来实现降维,有效减少了数据间的相互影响。文章详细阐述了如何通过协方差矩阵的特征值分解来确定主成分,并给出了PCA算法的具体步骤。
2743

被折叠的 条评论
为什么被折叠?



