现在越来越多的同学在使用 SIMCA 软件来进行主成分分析了,这个软件的好处就是可视化界面方便,出图也还可以。但是也遇到很多同学不太理解得到的一些结果,所以这里我就以自己的一些经验和查询的资料来帮大家入个门吧!!
主成分也许不是你想象中的那个主成分
在最开始接触到主成分分析(Principal Component Analysis)的时候,我想很多同学都和我有一个疑问:主成分分析,到底那一个是主成分?我最开始也是这样的去理解,以为是从众多的变量(指标)中去挑选一个“主成分”。
然而实际却并不是这样的,其实这里的主成分,不是要从我们已经测量得到的变量中选择一个,而是我们要“从众多的变量中拟合出尽可能代替众多变量的“变量”",即实现从“多”到“少”过程,也就是大家经常听说的“降维”。这里的“维”,可以看成我们实验中的变量,也就是你测定的指标,比如说代谢组里面不同的代谢物,一株植物不同的农艺性状,样品中的元素含量等等。
这里从网上找了一张图片来表示。在图A中,要表示左下角和右上角两处差异较大的数据,我们就需要 X-Y 两个坐标来表示,而当我们把图A中的 X-Y 坐标轴旋转到图示的 PC1和 PC2 时,就得到了图B,在图B中,只需要 X 轴的坐标就能够表示出数据之间的差异。这就是主成分分析,而在实际运用中,变量更多,所以更复杂一些,但整体的原理是类似的。

SIMCA 中 PCA 结果参数解读
我们这里用 R 包 factoextra 中自带的数据 decathlon2,然后我们取前23行和前10列在 SIMCA 软件中进行分析说明。
把数据导入后直接用默认参数来分析,默认参数给出项目概览结果如下: