Deep Leaning 学习笔记之改善神经网络的超参数（3.2）—— 批量初始化Batch norm及Softmaxr

最新推荐文章于 2024-10-07 17:18:18 发布

原创

最新推荐文章于 2024-10-07 17:18:18 发布 · 310 阅读

0 ·

CC 4.0 BY-SA版权

本文探讨了深度学习中改善神经网络超参数的方法，重点在于批量初始化（Batch Norm）和Softmax的运用。批量初始化通过γ和μ超参数控制均值和方差，而Softmax作为激活函数用于计算行动概率，其反向传播的梯度计算公式也被详细阐述。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1 批量初始化

1.1 定义

除了对X能够进行均值归一，对各个隐藏层也可以初始化，即对Z统一初始化

1.2 方法

下图中的 $γ$ 和 $μ$ ，是两个超参数，可以控制均值和方差的界限
（一般来说都是均值为0，方差为1，但是不一定，因此可以通过这两个超参数进行控制）
还有种情况就是，当 $γ=σ2+ε，β=μγ=\sqrt{σ^2+\varepsilon}，β=μ$

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Aperact

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

bn层初始化参数_对于Batch Norm层的理解

weixin_28901327的博客

01-12

1263

看到过很多人解释BN层的帖子，综合了一下，加上自己的理解，记录下我对BN层的理解。1、What is BN？BN层的计算步骤如下图所示：计算每一个batch的均值；计算每一个batch的方差；使用1和2中计算得到的均值和方差，对数据进行归一化操作，获得0~1分布；尺度变换与偏移：归一化之后的基本会被限制在正态分布下，使得网络的表达能力下降，由此引入保留学习到的特征。（尺度因子和平移因子）B...

吴恩达深度学习第二课第三周作业及学习心得体会 ——softmax、batchnorm

weixin_42604446的博客

08-31

2183

写在前面本周课程用了两周完成，因为课程让用tensorflow实现，编码时还是更希望自己手写代码实现，而在实现过程中，低估了batchnorm反向计算的难度，导致算法出现各种bug，开始是维度上的bug导致代码无法运行，等代码可以运行时，训练神经网络的时候成本又总会发散，于是静下心来把整个运算的前向和反向过程认真推导了好几遍，期间参考网上一些资料，但感觉都没有把问题真正说清楚，连续三天的推导后...

参与评论您还未登录，请先登录后发表或查看评论

week 7 吴恩达调参，batch norm，softmax

qq_45906101的博客

12-18

600

week 7 吴恩达调参，batch norm，softmax

【深度学习】参数初始化与Batch Normalization

无极阁

04-23

4126

一、参数初始化原则参数初始化作为模型训练的起点，决定了模型训练的初始位置。选择的好坏很大程度影响收敛的速度与最终的训练结果。一般来说，参数初始化遵循以下几点要求：不建议同时初始化为一个值，容易出现“对称失效” 最好保证均值为0，正负交错，参数大致数量相等 初始化参数不要太大或太小，前者会导致梯度发散难以训练，后者会导致特征对后面的影响逐渐变小二、常见的初始化方法 1、全零初始化与随机初始...

超参数调试与BN(Batch Norm)

行云

04-22

1233

1. 深度学习中的超参数 深度学习最难之一的问题，也是被许多人不喜的愿意就是超参数，深度学习中有许多超参数，例如常见的学习率、隐藏层的数量、优化算法中的超参数等等。这些超参数往往没有一个固定的比较好的值，在不同的领域、不同的场景、甚至是硬件条件不变，最适合的超参数也在变化，因此，想要掌握深度学习，超参数是不得不面对的一件事。那么超参数那么多，到底怎样选取合适的值呢？我们首先根据大多数人的...

Deep Leaning 学习笔记之改善神经网络的超参数（1.2）—— 正则归一初始化及函数

Mr.Zhang的笔记本

07-29

222

1.正则化方法 1.1 几种常用的正则化方法 L1正则化： L2正则化：从作业里面找，现在先不写 1.2 反向随机失活技术(inverted dropout technique) - 总的来说，比如，一个神经网络有3层，一层有10个units ，那么反向随机失活技术，就是为每一层的10个单元都抛硬币，比如设置，每一个units都有0.5的几率保留下来，否则会消除。当随机消除之后，会得到一个比原...

Deep Leaning 学习笔记之改善神经网络的超参数（3.1）—— 超参数调试

Mr.Zhang的笔记本

08-09

785

1 优化过程本期我们学习的两个主要内容是使用随机取样而不是在网格中定点搜索或者使用区域定位的搜索过程但是除此以外还有很多超参数探寻的方法 1.1 随机抽样如果你有两个超参数 假设是超参数1和超参数2 人们经常会像这样在一个网格中对点进行取样然后系统化地尝试这些点所代表的值 1.2 区域定位搜索比如在这个二维的例子中你抽取了这些点也许你发现这个点能产生最好的结果并且旁边的...

Deep Leaning 学习笔记之改善神经网络的超参数（2.1）—— 优化算法速度（小批量、动量、均方根、adam优化算法）

Mr.Zhang的笔记本

07-31

627

1.小批量梯度下降mini-batch 1.1 概念小批量梯度下降，顾名思义，指的是：假如有一个训练集，大小为1,000,000，每次运行梯度下降，都需要整体遍历一遍数据集之后才能够运行一步。小批量梯度下降，则将这一百万个样本，分成多份，每1000个样本（可以是其他数字）成为一个小批量。每次运行一个小批量样本时，梯度更新一次。那么，遍历整体一百万个样本时，梯度会更新1000次，即走1000...

Deep Leaning 学习笔记之改善神经网络的超参数（1.4）—— 正则、dropout、梯度检验实例

Mr.Zhang的笔记本

07-30

285

1 正则化 1.1 L2正则化函数 def compute_cost_with_regularization(A3, Y, parameters, lambd): m = Y.shape[1] W1 = parameters["W1"] W2 = parameters["W2"] W3 = parameters["W3"] cross_entrop...

【深度学习】吴恩达-学习笔记 优化算法（动量梯度，RMSprop，Adam）、参数初始化、Batch Norm

m0_51933492的博客

08-30

930

动量梯度下降法采用累积梯度来代替当前时刻的梯度。直观来讲，动量方法类似把球推下山，球在下坡时积累动力，在途中速度越来越快，如果某些参数在连续时间内梯度方向不同，动量就会变小，反之，在连续时间内梯度方向一致，动量会增大。动量梯度下降法可以更快速的收敛并减少目标函数的震荡。是动量参数，通常取0.9, 为超参数，是x轴方向的动量，是纵向y轴方向的动量。是梯度更新的步长。 RMSprop可以自适应调整每个参数的学习率，此外，RMSprop可以客服学习率过早衰减的问题。相较于动量梯度下降法，（）后相乘的微分变为微分

2.3 调试神经网络（调整超参数、归一化隐藏层Batch Normalization、softmax激活函数处理多分类问题、安装与使用TensorFlow）

bijingrui的博客

09-15

1036

调整超参数 重要程度最重要：学习率 α；(或者说学习率r) 其次重要： β：动量衰减参数，常设置为 0.9； # from 动量梯度下降各隐藏层神经元个数n；# hidden units mini-batch 的大小；再次重要： β1，β2，ϵ：常设为 0.9、0.999、10−810−8； # fromAdam优化算法 神经网络层数L; # layers decay_rate：学习衰减率；搜索方法：随机搜索法 ...

深度学习中的权重初始化与BatchNorm问题

quanmator

05-02

233

BN是一种改变输出值分布的标准化操作，减小输出层分布的偏向性，可以有效的缓解梯度消失问题。输出值经过激活函数后，导数值接近于0，反向传播，引起梯度消失问题。因此需要合理的权重初始化方式：主要有Xavier、He两种。因此需要合理的权重初始化方式：主要有Xavier、He两种。随机的权重初始化会导致输出层输出值偏向0或者1。输出层输出值分布【鱼书p178】

SOFTMAX回归的从零开始实现

dujuancao11的博客

09-02

1073

《动手学深度学习pytorch》部分学习笔记，仅用作自己复习。 SOFTMAX回归的从零开始实现 import torch import torchvision import numpy as np import sys sys.path.append("..") # 为了了导⼊入上层⽬目录的d2lzh_pytorch import d2lzh_pytorch as d2l 获取和读取数据使用Fashion-MNIST数据集，并设置批量大小为256。 batch_size = 256 tra

零基础-动手学深度学习-3.6softmax回归的从零开始实现

最新发布

Nicholas_PFD的博客

10-07

2604

softmax回归的复复复复杂操作

深度学习中的Batch Normalization

fu6543210的博客

08-27

698

在看 ladder network(https://arxiv.org/pdf/1507.02672v2.pdf) 时初次遇到batch normalization（BN）. 文中说BN能加速收敛等好处，但是并不理解，然后就在网上搜了些关于BN的资料。看了知乎上关于深度学习中 Batch Normalization为什么效果好？和优快云上一个关于Batch Normalization 的学...

一文弄懂理解Batch Normalization在深度学习中的作用(含TF2.0实操代码)

TEDDY的博客

04-12

2096

神经网络在训练过程中往往会遇到一些问题：问题1: 随着网络训练，浅层的权重发生变化，导致深层的输入变化很大。因此每层必须根据每批输入的不同分布重新调整其权重。这减缓了模型训练。如果我们可以使层的输入分布更相似，那么网络可以专注于学习类别之间的差异。不同批次分布的另一个影响是梯度弥散。梯度弥散是一个大问题，特别是对于S形激活函数（sigmoid）。如果g(x)表示sigmoid激活函数，随着 |x| 增加，g’（x）趋于零。问题2：当输入分布变化时，神经元输出也会变化。这导致神经元输出偶尔波动

从源头理解Batch Normalization (顺带搞懂为什么做参数初始化)

Rolandxxx的博客

02-18

1205

基于第一节讲到的Normalization能为神经网络带来的种种好处，面临的下一个问题就是针对不同的任务，网络每一层的多维的数据在哪个维度进行Normalization是最合适的，于是就有了Batch Normalization(BN)。：因为理想输出y是做了Normalization的高斯分布(均值为0方差为1)，所以参数初始化的目标就是使得输入x经过k和b的一通计算后，预测的输出y仍然服从Normalization的正态分布(均值为0方差为1)，能满足这个条件的参数k和b，就是一个好的初始化！

梯度下降、牛顿法凸优化、L1、L2正则化、softmax、Batchnorm、droupout、Targeted Dropout详解

小岁月太着急

12-09

5757

一、梯度下降问题提出：虽然给定一个假设函数，我们能够根据cost function知道这个假设函数拟合的好不好，但是毕竟函数有这么多，总不可能一个一个试吧？因此我们引出了梯度下降：能够找出cost function函数的最小值；梯度下降背后的思想是：开始时我们随机选择一个参数的组合（θ0,θ1,...,θn），计算代价函数，然后我们寻找下一个能让代价函数值下降最多的参数组合。我们持续这么做...

Batch Normalization详解

郡酱的博客~

02-01

4718

Batch Normalization 原理 1. Batch Normalization的提处背景 1.1 常见的帮助收敛的方法在深度学习中，随着网络层数的加深，模型的收敛难度会越来越大。为了让模型更好的收敛，涌现出了各种各样的调参方法：基于随机梯度下降的各种优化算法，即各种优化器 SGD、Adgrad、Adadelta、Adam… 参数初始化方法全零初始化、随机初始化、Xavier初始化、He初始化、预训练模型 1.2 收敛困难的原因为什么随着网络层数的增加，网络会越来越难收敛呢

快速入门深度学习：实用配方与实战项目

《深度学习实战食谱：快速入门指南》（Deep Learning Cookbook: Practical Recipes to Get Started Quickly）是一本由Douwe Osinga撰写的实用手册，专为那些想要踏入深度学习领域但缺乏机器学习背景的软件工程师设计...