数据的归一化与标准化

最新推荐文章于 2025-05-13 23:14:44 发布

nini_coded

最新推荐文章于 2025-05-13 23:14:44 发布

阅读量3.4k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：深度学习文章标签：归一化标准化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/nini_coded/article/details/79327351

深度学习专栏收录该内容

9 篇文章

订阅专栏

本文介绍了机器学习中常见的数据预处理方法——归一化和标准化。这两种方法旨在消除不同变量间量纲的影响，提高模型的收敛速度和精度。文章详细解释了归一化和标准化的不同处理方式及其适用场景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

机器学习中常见数据的归一化（normalization）和标准化（standardization），其实这二者的作用和处理方法都很相似，本文作简单介绍。

两者的基本作用是消除不同变量之间量纲的影响，方便数据处理。在机器学习中的作用是：

1. 提高模型的收敛速度
假设某一模型包含两个特征 $x_1,x_2$ ， $x_1$ 数值很大，而 $x_2$ 数值很小，两者的取值在平面上呈现一个狭长的椭圆形，这使得在梯度下降时，梯度的方向因为垂直等高线而走“之”字形路线，这会使迭代很慢。相反若两个变量取值对称性较好，构成圆形，则每一次迭代时梯度都会朝着正确的方向下降，避免走弯路，加快了收敛速度。

2.提高模型精度
在涉及到度量计算时，显然变量的数值量级差异会产生很大影响。例如：若 $x_1$ 取值范围较小，对于度量计算的结果显然比 $x_2$ 小，这就会造成精度的损失。因此归一化和标准化会让各个特征在对应权重相同时，自身的单位数值对结果做出的贡献相同。

下面简述归一化和标准化在处理方法上的差异。

归一化
做法：将原始数据映射到[0,1]区间。

常用方法：

1.min-max归一化

x' i = x i - x m i n x m a x - x m i n

$x_i^{'} = \frac{x_i-x_{min}}{x_{max}-x_{min}}$
该方法是线性映射，最为直观快捷，但新增数据时可能需要更新最大值或最小值，而且受极端样本影响大，鲁棒性差，适合对小样本分析。

2.对数函数转换

x' = l o g 10 x l o g 10 x m a x

$x^{'} = \frac{log_{10}x}{log_{10}x_{max}}$

3.反正切函数转换

x' = 2 a r c t a n ( x ) π

$x^{'} =\frac{2arctan(x)} {\pi}$

4.L2-norm归一化

x' = x | | x | | 2

$x^{'} = \frac{x}{||x||_2}$

标准化
做法：将原始数据映射到一个较小的特定的范围内，映射后的数据均值为0，标准差为1。

常用方法：

1.z-score标准化

x' = x - μ σ

$x^{'} = \frac{x-\mu}{\sigma}$
最常用的标准化方法，该方法要求原始数据的分布近似为高斯分布，否标标准化的效果较差。样本数越多效果越稳定，比较适合对大数据分析。也常用在对数据降维操作（PCA等）之前。

2.Decimal scaling小数定标标准化

x' = x 10 j

$x^{'} = \frac{x}{10^j}$
其中，

10j10j $10^j$ 为大于样本最大值绝对值的最小满足条件的值。

该方法通过移动数据的小数点位置来进行标准化。小数点移动多少位取决于样本最大值的绝对值。

3.Logistic\softmax变换

x' = 1 1 + e - x

$x^{'} =\frac{1}{1+e^{-x}}$
这也就是sigmoid函数，两极分化的分布便于做数据的二分类。当然若要实现多分类，也可用softmax函数做标准化变换：

x' = e x \sum n i e x i

$x^{'} = \frac{e^x}{\sum_{i}^{n}{e^x_i}}$

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。