pytorch中的归一化：BatchNorm、LayerNorm 和 GroupNorm

原创

已于 2023-12-10 23:34:06 修改 · 5.8k 阅读

·

30

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#深度学习 #人工智能 #归一化

于 2023-12-10 23:31:08 首次发布

本文介绍了数据归一化在深度学习中的重要性，特别是在解决梯度消失和爆炸问题、提升模型收敛速度和泛化能力方面。重点讲解了BatchNorm、LayerNorm和GroupNorm三种归一化方法在PyTorch中的应用和代码示例。

1 归一化概述

训练深度神经网络是一项具有挑战性的任务。多年来，研究人员提出了不同的方法来加速和稳定学习过程。归一化是一种被证明在这方面非常有效的技术。

1.1 为什么要归一化

数据的归一化操作是数据处理的一项基础性工作，在一些实际问题中，我们得到的样本数据都是多个维度的，即一个样本是用多个特征来表示的，数据样本的不同特征可能会有不同的尺度，这样的情况会影响到数据分析的结果。为了解决这个问题，需要进行数据归一化处理。原始数据经过数据归一化后，各特征处于同一数量级，适合进行综合对比评价。

例如，我们现在用两个特征构建一个简单的神经网络模型。这两个特征一个是年龄：范围在 0 到 65 之间，另一个是工资：范围从 0 到 10 000。我们将这些特征提供给模型并计算梯度。

不同规模的输入导致不同的权重更新和优化器的步骤向最小值的方向不均衡。这也使损失函数的形状不成比例。在这种情况下，就需要使用较低的学习速率来避免过冲，这就意味着较慢的学习过程。

所以我们的解决方案是输入进行归一化，通过减去平均值(定心)并除以标准偏差来缩小特征。

此过程也称为“漂白”，处理后所有的值具有 0 均值和单位方差，这样可以提供更快的收敛和更稳定的训练。

1.2 归一化的作用

在深度学习中，数据归一化是一项关键的预处理步骤，用于优化神经网络模型的训练过程和性能。归一化技术有助于解决梯度消失和梯度爆炸问题，加快模型的收敛速度，并提高模型的鲁棒性和泛化能力。详细介绍如下：

梯度消失和梯度爆炸问题：在深度神经网络中，梯度消失和梯度爆炸是常见的问题。数据归一化可以缓解这些问题，使得梯度在合理的范围内进行传播，有助于提高模型的训练效果。
特征尺度不一致：深度学习模型对特征的尺度非常敏感。如果不同特征具有不同的尺度范围，某些特征可能会主导模型的训练过程，而其他特征的影响可能被忽略。通过数据归一化，可以将不同特征的尺度统一到相同的范围，使得模型能够平衡地对待所有特征，避免尺度不一致带来的偏差。
模型收敛速度：数据归一化可以加快模型的收敛速度。当数据被归一化到一个较小的范围时，模型可以更快地找到合适的参数值，并减少训练过程中的震荡和不稳定性。这样可以节省训练时间，提高模型的效率。
鲁棒性和泛化能力：通过数据归一化，模型可以更好地适应不同的数据分布和噪声情况。归一化可以增加模型的鲁棒性，使得模型对输入数据的变化和扰动具有更好的容忍度。同时，归一化还有助于提高模型的泛化能力，使得模型在未见过的数据上表现更好。

1.3 归一化的步骤

归一化通过对数据的特定维度上进行归一化操作来调整输入数据的分布，使其具有零均值和单位方差。一般通过以下步骤对输入进行归一化：

对于给定的输入数据，在给定的维度上计算其均值和方差。
使用计算得到的均值和方差对输入数据进行标准化，将其零均值化并使其具有单位方差。
对标准化后的数据进行缩放和平移操作，通过可学习的参数进行调整，以恢复模型对数据的表达能力。

进一步地，在归一化中，通过缩放和平移操作，引入了可学习的参数，即缩放参数（scale）和平移参数（shift）。这些参数用于在标准化后的数据上进行线性变换，以恢复模型的表达能力。

具体而言，在每个特征维度上，假设归一化后的数据为 $\hat{x}$

最低0.47元/天解锁文章

评论 2

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

查看更多评论

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

源启智能 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。