主成分分析法(PCA)答疑

最新推荐文章于 2025-07-25 14:52:21 发布

weixin_30879833

最新推荐文章于 2025-07-25 14:52:21 发布

阅读量86

点赞数

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/yyxayz/p/4150170.html

本文详细解释了数据标准化的目的和步骤。标准化通过减去均值和除以标准差，使得数据坐标移至原点，便于进一步的数据分析。矩阵中不同量纲的数据在标准化后能够公平比较，特别适用于协方差矩阵的计算。对于图像数据，由于所有值在同一量纲下，因此只需进行均值减去操作。

问：为什么要去均值？

1、我认为归一化的表述并不太准确，按统计的一般说法，叫标准化。数据的标准化过程是减去均值并除以标准差。而归一化仅包含除以标准差的意思或者类似做法。
2、做标准化的原因是：减去均值等同于坐标的移动，把原始数据点的重心移到和原点重合，这样利于很多表达，比如数据的协方差矩阵可以写成XX'，若没有减去均值，则XX‘后面还要减去一些东西（还不明白可以参考多元统计分析的书）。除以标准差是为了统一并消除量纲。一个矩阵中有多个向量，有些可能表示了长度，有些表示了重量，除以标准差，才能让它们仅以“数”的概念一起比较运算。
3、标准化的做法。举例，若你的矩阵A是5行3列，第一列表示长度，第二列表示时间，第三列表示质量，那么矩阵A等同于对这个三个量进行了5次测量，所以5*3.这样3个分量有各自的均值和标准差，对这个矩阵中15个元素均做标准化只要减去长度、时间、质量各自的均值并除以标准差即可。

4、图像不需要除以标准差，因为他们都是像素值，同量纲同尺度。只减均值就行。

转载于:https://www.cnblogs.com/yyxayz/p/4150170.html