[深度学习] 权值初始化 xavier和he_normal

vcvycy

已于 2023-06-02 19:49:32 修改

阅读量2.4w

点赞数 12

文章标签：深度学习人工智能神经网络

于 2018-03-04 14:06:41 首次发布

本文链接：https://blog.youkuaiyun.com/vcvycy/article/details/79436379

版权

本文探讨了深度学习中权重初始化的重要性，分析了Xavier和He_normal两种初始化方法的原理，旨在解决深层神经网络训练初期的梯度消失和饱和问题。通过实验对比，展示了不同初始化方式对模型训练速度和效果的影响，尤其是在ResNet训练MNIST数据集时，He_normal表现出更好的性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、概述与应用

(1)论文

xavier论文：《Understanding the difficulty of training deep feedforward neural networks》

he_normal论文：《Delving Deep into Rectifiers:Surpassing Human-Level Performance on ImageNet Classification》

(2)Tensorflow API，initializer：

tf.keras.initializers.he_normal()

tf.contrib.layers.xavier_initializer()

二、xavier原理

(0) 公式推导

核心：

前向传播时，对于某一层输入x，输出y，如何初始化w使得 x与y的分布一致？

y = sigma(xi * wi) + b , i= 1~n，表示n个神经元。

另外这个论文假设激活函数梯度为1，即没有激活函数

要使得 D(y) = D(x)，即w初始化后，输出的方差与输入方差一致：

D(y) = D(xi) = D(sigmal(xi*wi))

= n * D(xi * wi) // 此处根据公式 D(A+B) = D(A) + D(B)的到

= n * D(xi) * D(wi) // 根据公式:

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

vcvycy

关注关注

12
点赞
踩
30

收藏

觉得还不错? 一键收藏
3
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

从零实现深度学习框架——几种常用的权重初始化方法

日积月累，天道酬勤

04-21

2577

近两万字详细解释Xavier初始化和He初始化的由来，并有详尽的推理证明！

权值初始化

学习记录

01-13

1155

在神经网络中，梯度消失和梯度爆炸是训练过程中常见的问题。梯度消失指的是在反向传播过程中，梯度逐渐变小，导致较远处的层对参数的更新影响较小甚至无法更新。这通常发生在深层网络中，特别是使用某些激活函数（如sigmoid函数）时。当梯度消失发生时，较浅层的权重更新较大，而较深层的权重更新较小，使得深层网络的训练变得困难。梯度爆炸指的是在反向传播过程中，梯度逐渐变大，导致权重更新过大，网络无法收敛。这通常发生在网络层数较多，权重初始化过大，或者激活函数的导数值较大时。

3 条评论您还未登录，请先登录后发表或查看评论

initializers in TensorFow: xavier, He initializer

wsdgh的博客

12-13

1327

_compute_fans def _compute_fans(shape): &quot;&quot;&quot;Computes the number of input and output units for a weight shape. Args: shape: Integer shape tuple or TF tensor shape. Returns: A tuple of scal...

#Python Keras xaiver初始化

往深度学习的深度广度冲！

09-12

1122

百度了半天Keras的xaiver初始化，导出都找不到，结果才发现那玩意在Keras的中文官方文档里面有，白费心思了，就顺手记下来吧。 import keras keras.initializers.glorot_normal(seed=None) Glorot 正态分布初始化器，也称为 Xavier 正态分布初始化器。它从以 0 为中心，标准差为stddev=sqrt(2/(fanin+fanout)). stddev= sqrt(2 / (fanin + fanout)). stddev=sqrt(

Pytorch中的主要函数

qq_63913621的博客

02-28

933

我就基本的解释一下吧，！

Xavier 正态初始化

weixin_44012667的博客

07-02

607

Xavier 正态初始化（Xavier Normal Initialization）是神经网络中权重初始化的一种方法，也称为 Glorot 初始化。这种方法通过设置合适的初始权重来控制信号在网络层间的流动，避免信号在前向传播和反向传播过程中过度增大或减小，从而有助于加快网络的训练速度并提高模型性能。

xavier_initializer初始化

ningmengccccc的博客

11-03

5225

xavier_initializer( uniform=True, seed=None, dtype=tf.float32 ) 返回对权重执行“ Xavier”初始化的初始化器。使用： def initialize_parameters(): tf.set_random_seed(1) W1= tf.get_variable("W1",...

kernel_initializer='he_normal'

weixin_35756624的博客

01-10

1260

kernel_initializer=he_normal 指的是在初始化神经网络权重时使用的方法。he_normal 是一种用于初始化权重的方法，其中权重的初始值是从均值为 0，标准差为 sqrt(2 / fan_in) 的正态分布中随机抽取的。这种初始化方法通常被用于 ReLU 激活函数的网络中。 ...

pytorch学习笔记九：权值初始化

Dear_learner的博客

02-21

2594

一、概念权值初始化是指在网络模型训练之前，对各节点的权值和偏置初始化的过程，正确的初始化会加快模型的收敛，从而加快模型的训练速度，而不恰当的初始化可能会导致梯度消失或梯度爆炸，最终导致模型无法训练。如上图所示的一个基本的CNN网络结构，数据在网络结构中流动时，会有如下的公式（默认没有偏置）：在反向传播的过程中，由于是复合函数的求导，根据链式求导法则，会有两组导数，一个是损失函数Cost对Z的导数，一个是损失函数对W的导数， 1、损失函数关于状态Z的梯度： 2、损失函数关于W的梯度：可以看出，

深度学习中常见的权重参数初始化方法

2301_76846375的博客

09-08

1561

Xavier 初始化适合 Sigmoid、Tanh 激活函数，能够保持输入和输出的方差平衡。He 初始化适合 ReLU 和 Leaky ReLU 激活函数，能帮助防止梯度消失问题。随机初始化用于打破神经元之间的对称性，但需要注意数值范围。预训练权重在迁移学习中常用，能够加速训练并提升效果。通过合理的权重初始化方法，深度学习模型可以更快地收敛，并获得更好的训练效果。

kernel_initializer=‘he_normal‘

cccjp1999的博客

11-28

472

kernel_initializer=he_normal 指的是在初始化神经网络权重时使用的方法。he_normal 是一种用于初始化权重的方法，其中权重的初始值是从均值为 0，标准差为 sqrt(2 / fan_in) 的正态分布中随机抽取的。这种初始化方法通常被用于 ReLU 激活函数的网络中。

Keras教学(6):Keras的初始化Initializers，看这一篇就够了

热门推荐

my_name_is_learn的博客

11-05

2万+

卷积神经网络的初始化，看这一篇就够了。内容包括初始化器的用法、可用的所有初始化器、自定义初始化器的方法

xavier初始化_【AI初识境】什么是深度学习成功的开始？参数初始化（xavier，he等）...

weixin_39995943的博客

11-24

193

这是《AI初识境》第5篇，这次我们说说初始化。所谓初识，就是对相关技术有基本了解，掌握了基本的使用方法。神经网络要优化一个非常复杂的非线性模型，而且基本没有全局最优解，初始化在其中扮演着非常重要的作用，尤其在没有BN等技术的早期，它直接影响模型能否收敛。可以说万事开头难，没有好的初始化的深度学习模型训练起来更难。 ...

深度网络中的的权重初始化与正则化（初始化与激活函数搭配问题）

qq_43258953的博客

04-25

2543

一，kernel_initializer&bias_initializer：建网络层时内核或者偏差权重的初始化方案。此参数是名称或可调用对象。二，kernel_regularizer&bias_regularizer: 设置应用于网络层中内核或者偏差权重的正则化方案，例如L1或L2正则化。默认情况下，不应用正则化。三，初始化及正则化的作用在设计深度学习模型的时候，我们经常需...

牛逼的初始化xavier（tensorflow）

fan15945028042的博客

04-09

7796

牛逼的初始化（必学） 初始化：有人用normal初始化cnn的参数，最后acc只能到70%多，仅仅改成xavier，acc可以到98% 1.修改初始化过程导入 from tensorflow.contrib.layers import xavier_initializer 原来的 Weights = tf.Variable(tf.truncated_normal([n_hiddens, n_c...

神经网络的初始化方法总结 | 又名“如何选择合适的初始化方法”

CV技术指南（微信公众号）

10-04

1886

前言本文介绍了为什么初始化很重要，总结了常用的几种初始化方法：全零或等值初始化、正态初始化、均匀初始化、Xavier初始化、He初始化和Pre-trained初始化，并介绍了几个还活跃的初始化方向：数据相关初始化、稀疏权重矩阵和随机正交矩阵初始化。本文来自公众号CV技术指南的技术总结系列欢迎关注CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读。为什么初始化很重要不正确初始化的权重会导致梯度消失或爆炸问题，从而对训练过程产生负面影响。对于梯度消失问题，权重更新

深度学习基础-参数初始化详解

11-21

743

我们知道神经网络模型一般是依靠随机梯度下降优化算法进行神经网络参数更新的，而神经网络参数学习是非凸问题，利用梯度下降算法优化参数时，网络权重参数的初始值选取十分关键。首先得明确的是现代的网络参数初始化策略是简单的、启发式的。设定改进的初始化策略是一项困难的任务，因为神经网络优化至今还未被很好地理解（即模型训练过程是一个黑盒）。大多数初始化策略基于在神经网络初始化时实现一些很好的性质。然而，我们并没有很好地理解这些性质中的哪些会在学习开始进行后的哪些情况下得以保持。

tensorflow 1.0 学习：参数初始化（initializer)

weixin_33964094的博客

06-02

1503

CNN中最重要的就是参数了，包括W,b。我们训练CNN的最终目的就是得到最好的参数，使得目标函数取得最小值。参数的初始化也同样重要，因此微调受到很多人的重视，那么tf提供了哪些初始化参数的方法呢，我们能不能自己进行初始化呢？所有的初始化方法都定义在tensorflow/python/ops/init_ops.py 1、tf.constant_initializer() 也可以简写为tf....

【深度学习】网络初始化 (initialization)

JNing

12-18

4898

【深度学习】网络初始化 (initialization)

Unet权重初始化