声明:以下内容来自多个作者的文章总结。参考:
1.主成分分析(PCA)与t-SNE_pca和t-sne-优快云博客
2.https://juejin.cn/post/7315125212852928550
一. PCA(Principal Component Analysis)
(1)基本原理
PCA是一种线性降维技术,通过寻找数据中方差最大的方向来进行降维。其基本思路是将原始数据投影到一些互相正交的主成分上,这些主成分按解释数据方差的大小排序。
PCA的主要目标就是求解转换矩阵,我们需要预先定义目标函数,在PCA中,有以下两个优化目标:
(1)最小化重构误差
(2)最大化投影后的方差。
注:最小化重构误差是指通过降维找到最优的低维空间,使得在该空间中重建原始数据时误差最小。
1.1 什么是中心化处理?
中心化处理的核心是将数据集中的每个特征的均值变为零。对于一个数据集中的每个特征(变量),我们计算该特征在所有样本中的平均值,然后从每个样本的该特征值中减去这个平均值。这相当于将数据的原点平移到所有样本的均值位置。