谈一谈深度学习中的归一化问题

最新推荐文章于 2023-05-04 10:56:06 发布

BingLZg

最新推荐文章于 2023-05-04 10:56:06 发布

阅读量1.7k

点赞数 1

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/Bing_bing_bing_/article/details/94988939

本文探讨了深度学习中遇到的梯度消失问题，分析了其原因，包括网络过深、激活函数饱和及权重初始化不当。提出了通过选择合适激活函数如ReLU，以及使用Xavier或He初始化来缓解这一问题。此外，还详细解释了批归一化的作用，它能稳定激活值分布，避免梯度消失，加速网络训练并提高收敛速度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

如下图所示，以3个隐藏层的神经网络为例，每层网络只有一个神经元：

其中H表示激活函数，这里选择sigmoid函数为激活函数。损失函数为

根据梯度下降法和反向传播算法来更新w1、w2、w3、w4：

其中H函数表示sigmoid激活函数。

若wi的初始化值小于1；当x位于sigmoid函数两侧时，其dH(x)/dx的导数接近于0。因此经过多层的反向传播，导致损失函数J对w1的倒数接近于0。这就是梯度消失或梯度弥散。

因此，层数越靠前的网络越容易出现梯度消失，如下图所示。

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

BingLZg

关注关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

MATLAB算法实战应用案例精讲-【深度学习】归一化

qq_36130719的博客

07-15

454

归一化是一种数据处理方式，能将数据经过处理后限制在某个固定范围内。归一化存在两种形式，一种是在通常情况下，将数处理为 [0, 1] 之间的小数，其目的是为了在随后的数据处理过程中更便捷。例如，在图像处理中，就会将图像从 [0, 255] 归一化到 [0, 1]之间，这样既不会改变图像本身的信息储存，又可加速后续的网络处理。其他情况下，也可将数据处理到 [-1, 1] 之间，或其他的固定范围内。另一种是通过归一化将有量纲表达式变成无量纲表达式。那么什么是量纲，又为什么需要将有量纲转化为无量纲呢？

深度学习中的梯度消失问题——从数学原理谈起

最新发布

AI天才研究院

09-21

1295

深度学习(Deep Learning)在图像识别、视频分析等领域取得了极大的成功，也被认为是人工智能领域的里程碑事件。近年来，随着深度学习技术的不断进步，越来越多的研究人员开始关注深度学习的一些基础性问题，例如梯度消失、网络爆炸等。梯度消失是一个经典的问题，其原因是深度神经网络的反向传播算法导致了梯度被限制住或变小。当深度神经网络层次较深时，前面的某些层的参数变化会影响后面层的参数更新，而由于前面的层参数权值太小，梯度变化就变得很小，最后结果模型可能无法正确训练。

参与评论您还未登录，请先登录后发表或查看评论

深度学习中的归一化方法比较

08-23

归一化层，目前主要有这几个方法，Batch Normalization（2015 年）、Layer Normalization （2016 年）、Instance Normalization（2017 年）、Group Normalization（2018 年）、Switc hable Normalization（2018 年）

深度学习---归一化问题

blog

06-18

584

1.深度模型的激活函数 2.激活函数导致的梯度消失 3.批量归一化 4.自归一化神经网络 1.激活函数：多层感知机：目的是近似估计一个未知的函数f(x): x->y f(x) = f1(f2(…fn(x))) 如果每一个简单的函数都线性函数，那么复合函数仍然是线性函数所以需要有非线性项 2.激活函数导致的梯度消失常见激活函数： sigmoid 优点： 1.逻辑回归 2.导数好计算，光滑...

[深度学习概念]·数据归一化问题

简明AI工作室

03-12

1209

预测时数据如何归一化问题？个人主页-->https://xiaosongshine.github.io/ 参考Batch Normalization（简称BN）的处理方法在训练时，我们会对同一批的数据的均值和方差进行求解，进而进行归一化操作。但是对于预测时我们的均值和方差怎么求呢？比如我们预测单个样本时，那还怎么求均值和方法呀！其实是这种样子的，对于预测阶段时所使用的均值和...

深度学习中的归一化

weixin_38241876的博客

06-20

1172

归一化可可分为BatchNormal、IncetanceNormal、LayerNormal。 BatchNormal按照公式可以看出它是排除共性的东西，保留异性的东西，因为均值其实就是共性的东西，而方差就是不同东西的平均值，那么除以它的话就相当于归一化了，因此BatchNormal是去掉了这一批数据的共同的东西保留了它们的差异性。 IncetanceNormal是在通道上做归一化，用于改变整...

深度学习中的数据归一化

qq_35535616的博客

12-14

2008

最近在做低氧舱滞后时间模拟的项目中遇到了输入数据量纲不同的情况，使用归一化和直接学习对比的情况发现训练结果大有不同。因此记录一下。 归一化作用基本原理实现方法什么时候需要归一化实例：归一化前后数据训练情况对比作用 归一化是一种简化计算的方式，即将有量纲的表达式，经过变换，化为无量纲的表达式，成为标量。在多种计算中都经常用到这种方法。以上是百度给的定义。。。。。。个人理解归一化可以反应不同量纲数据中，基本原理实现方法什么时候需要归一化 实例：归一化前后数据训练情况对比按列归一化 ...

深度学习500问的pdf版本

06-20

《深度学习500问》是一本非常实用的深度学习教程资源，由GitHub用户scutan90编写并分享。这本书涵盖了深度学习领域的诸多基础知识、理论概念以及实践技巧，旨在帮助初学者和进阶者深入理解并掌握深度学习的核心概念...

深度学习最全面试题总结（一）

热门推荐

专注大数据与人工智能技术分享，欢迎私信加群互相学习！

05-04

2万+

导读：本系列深度学习面试题系列总结，资料集合包含机器学习、深度学习等各系列常见问题，可配合下列资料一起学习，内容参考Github及网络资源，仅供个人学习。侵权联系删除！

深度学习学习笔记——为什么要归一化

phily123的博客

02-21

1161

作用：排除量纲的作用，加速模型收敛；提高模型精度，同时模型对小数据也更敏感。方法：标准化、最大值最小值归一化

深度学习：归一化

小马哥的博客

02-24

894

深度学习中的归一化 批量归一化 自归一化网络主要内容与结构主要内容：归一化问题结构：深度模型的激活函数激活函数导致的梯度消失 sigmoid tanh relu ELU 批量归一化 层输出对下一层的影响每一层的梯度都与来自前一层的输入有关。避免梯度消失批归一化+仿射变换层（线性层）：防止将那些本该在平坦区域却被我们归一化变换到梯度不平坦的区域带来的影响；同时保持网络稳定（让输入...

python batch normalization_什么是批标准化 (Batch Normalization)

weixin_39642981的博客

12-08

380

数学是达成目的的工具, 理解才是达成目的桥梁, 所以这篇文章用浅显易懂的动画阐述了复杂的机器学习概念.强烈推荐通过动画的形式了解.所以首先放视频链接: Youtube 或者优酷.代码实现请来这里看: Python 实现普通数据标准化Batch Normalization, 批标准化, 和普通的数据标准化类似, 是将分散的数据统一的一种做法, 也是优化神经网络的一种方法. 在之前 Normaliz...

深度学习数据归一化的方法

baidu_15113429的博客

01-16

922

normalization的介绍详细介绍LN BN的tensorflow调用方法 CNN使用BN方法 BN是对同一batch的样本进行归一化（使用高斯归一化方法） BN是同一个batch的样本进行归一化如果batch特别小的时候就会出现不稳定情况 BN不能对长度大小不一致的RNN进行处理，因为均值这些都向量长度不一样，不能得到均值 LN针对同一个样本里面进行高斯归一化就可以解决这个...

一句话讲解深度学习算法

CodeSausage的博客

03-29

574

其实很多高深莫测的算法，都不难理解，如何简单直接地讲出算法核心，可以很好地辅助对该算法的理解。

人工智能作业3例题复现

qq_44429225的博客

05-09

714

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用pytorch复现例题二、对比作业2和作业3 的程序1.作业2结果前言学习pytorch相关知识，掌握实际运用能力。一、使用pytorch复现例题相关代码： import torch x1, x2 = torch.Tensor([0.5]), torch.Tensor([0.3]) y1, y2 = torch.Tensor([0.23]), torch.Tensor([-0.07]) print(“=输.

【深度学习常见问题——归一化】

selami的博客

03-22

5542

归一化的基本原理，四种归一化方法的比较

深度学习中的归一化(normalization)和正则化(regularization)

sinoai

12-17

1万+

机器学习的学习过程基于概率和统计学，学习到的知识能用于其它数据的一个基本假设是独立同分布(IID)，因此把数据变成同分布是很有必要的。 A.权重归一化: WN 不归一化特征，而是归一化权重。假设卷积核的向量形式是，感受野的向量形式是，偏置为。一个神经元的输出可以表示为：。把权值写成：，因为，所以。这样，权值向量的模长就是，方向就是。模长和方向不再耦合，可以加速收敛。损失函数关于的导数：...

【深度学习】批规范化 (Batch Normalization，BN)

JNing

12-21

5893

【深度学习】批规范化 (Batch Normalization，BN)

深度学习中的组归一化（GroupNorm）

yuanlulu的博客

11-17

2万+

批归一化（BN）的缺点 BN 需要用到足够大的批大小（例如，每个工作站采用 32 的批量大小）。一个小批量会导致估算批统计不准确，减小 BN 的批大小会极大地增加模型错误率。加大批大小又会导致内存不够用。 归一化的分类 BN，LN，IN，GN从学术化上解释差异： BatchNorm：batch方向做归一化，算N*H*W的均值 LayerNorm：channel方向做归一化，算C*H*W的均值...

浅谈深度学习案例与Matlab应用的参考PDF

4. 数据预处理：介绍如何在MATLAB中处理深度学习所用的数据集，包括数据清洗、归一化、标准化、批处理等操作。 5. 训练深度学习模型：介绍如何使用MATLAB进行模型训练，可能包括模型选择、超参数设置、训练过程监控...