数据归一化

最新推荐文章于 2025-11-01 16:06:45 发布

原创最新推荐文章于 2025-11-01 16:06:45 发布 · 2.3k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#归一化 #标准化 #数据预处理

神经网络与深度学习专栏收录该内容

11 篇文章

订阅专栏

数据归一化是预处理的重要步骤，目的是统一量纲，优化模型训练。文中介绍了线性函数归一化（将数据转换到[0,1]范围）和0均值标准化（Z-score，使数据集均值为0，方差为1），后者适用于近似高斯分布的数据。讨论了两种方法对二维数据集方差和协方差的影响，并提供了参考资料。" 50405356,5551725,Linux内核3.10.x：PID哈希链表解析,"['内核', 'Linux', '进程管理', 'PIDhash']

部署运行你感兴趣的模型镜像

数据归一化
目的：
- 统一量纲
- 达到更好的模型训练效果（如BP算法中加速收敛）

方法

线性函数归一化

如使用原始数据的最小、最大值将原始数据变换到[0,1]范围内
这里写图片描述

0均值标准化（Z-score standardization）

将原始数据转化为均值为0，方差为1的数据集，公式为
这里写图片描述
其中，μ、σ分别为原始数据集的均值、方差。该方法要求原始数据的分布近似为高斯分布，否则归一化的效果会变差。
那什么情况下使用什么归一化方法呢？
首先考察两种方法对二维数据集X，Y的方差和协方差的影响。
对于线性函数归一化

X' = C X Y' = C Y

$X'=CX \\ Y'=CY$ 归一化后的方差为

c o v (X', Y') = \sum ( C X i - C X ¯ ¯ ¯ ) ( C Y i - C Y ¯ ¯ ¯ ) n - 1 = C c o v (X, Y)

$cov(X',Y')=\frac{\sum (CX_i-C\overline X)(CY_i-C\overline Y)}{n-1}=Ccov(X,Y)$
对于0均值标准化方法
先进行数据0均值后得到

X' = X - X ¯ ¯ ¯ Y' = Y - Y ¯ ¯ ¯

$X'=X-\overline X \\ Y'=Y- \overline Y$ 新的协方差为：

c o v (X', Y') = \sum ( X ' i - X ¯ ¯ ¯ ' ) ( Y ' i - Y ¯ ¯ ¯ ' ) n - 1 = \sum X ' i Y ' i n - 1

$cov(X',Y')=\frac{\sum (X'_i-\overline X')(Y'_i-\overline Y')}{n-1}=\frac{\sum X'_iY'_i}{n-1}$ 原始数据协方差为：

c o v (X, Y) = \sum ( X i - X ¯ ¯ ¯ ) ( Y i - Y ¯ ¯ ¯ ) n - 1 = \sum X ' i Y ' i n - 1 = c o v (X', Y')

$cov(X,Y)=\frac{\sum (X_i-\overline X)(Y_i-\overline Y)}{n-1}=\frac{\sum X'_iY'_i}{n-1}=cov(X',Y')$ 进行方差归一化后，

X'' = X' / σ X Y'' = Y' / σ Y

$X''=X'/\sigma X \\ Y''=Y'/\sigma Y$ 新的方差为：

c o v (X'', Y'') = \sum ( X '' i - X '' ¯ ¯ ¯ ¯ ¯ ) ( Y '' i - Y '' ¯ ¯ ¯ ¯ ¯ ) n - 1 = \sum X ' i Y ' i ( n - 1 ) σ X σ Y = c o v ( X , Y ) σ X σ Y

$cov(X'',Y'')=\frac{\sum (X''_i-\overline {X''})(Y''_i-\overline {Y''})}{n-1}=\frac{\sum X'_iY'_i}{(n-1)\sigma X \sigma Y}=\frac{cov(X,Y)}{\sigma X \sigma Y}$
以上计算得出，第一种方法新的协方差是原来的c倍，没有消除量纲对方差、协方差的影响，不适合PCA、距离度量相关的分析；第二种方法，对于服从正态分布的每个维度都被转换为均值为0，方差为1的标准正态分布，所以每个维度都被去量纲化了，适用于PCA、距离度量相关的分析。