Batch Normalization

本文深入探讨BatchNormalization技术,解析其如何解决Internal Covariate Shift问题,并加速深度网络训练过程。介绍了BatchNormalization的基本原理及其在特征缩放中的应用,同时讨论了该方法如何改善梯度消失现象并降低对参数初始化的要求。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

这篇文章记录下Batch Normalization的一些内容:

论文:

Sergey Ioffe, Christian Szegedy, “Batch Normalization: AcceleratingDeep Network Training by Reducing Internal Covariate Shift”, 2015


我们首先从 feature scaling 说起:


假设我们现在的两个输入X1,X2,他们的值很不平衡,X1都是1,2,3这样,  X2都是100,200,300这样。

那么我们画出W1和W2的梯度图就会是上图左边的那样。可以看到,W1要变化很多才能达到W2的变化一点的程度,也就是在实际的train过程中,要想让W1和W2学习到同样的程度,我们需要给W1一个很大的learning rate,相应减少W2的learning rate。确实这个是可以做到的,但是并不容易。如果我们能有个方法,使得W1与W2的梯度图如右边的圆那样,岂不美滋滋?


有一个方法:


就是归一化,也就是给每个维度-均值   / 标准差。这样会使收敛速度快很多。对于输入的数据来说,我们在训练前做这一步会很有助于后面的学习。那么对于hidden layer呢?


可以看到,随着参数的不断更新,layer1的输出也在不断的变化,这会使得后一层layer2接受的input会经常出现我们上面讲的梯度不平衡的问题。

在论文中给这个问题一个很高大上的词:   Internal  Covariate Shift

这个是什么意思呢?其实和之前讲的exposure bias的问题类似:

也就是有可能会导致,你后面学习的都是前面输出满足某个概率分布的条件下进行学习,现在前面学的差不多了,那么他的输出分布就会变化,导致你后面层以前学习的东西都白学了,又得按照前面层现在的输出条件重新开始学习。

从图中的小人来看,就是,左右的两个传声筒只有在一个高度才最好,现在你左右两边都在变化,如果不把握变化的幅度,会使得两个很难在同一高度。解决方法是吧learning rate调小,但是这样很难收敛的快。其实我们刚开始讲的Feature Scaling的作用就是为了解决 internal covariate shift的影响。因为如果我们队前一层的输出做feature scaling,那么下一层的输入分布就会相对固定,那么训练就会变得简单的多了。

因此,我们需要一个技术来固定每一层的output----------Batch Normalization

首先说下什么是Batch:


Batch就是每次训练使用一批数据来训练,它的原理是使用GPU加速批量并行运算矩阵化参数。且梯度更新方向更准

而batch normalization如下:


也就是对每个batch,进行归一化处理

BN不是凭空拍脑袋拍出来的好点子,它是有启发来源的:之前的研究表明如果在图像处理中对输入图像进行白化(Whiten)操作的话——所谓白化,就是对输入数据分布变换到0均值,单位方差的正态分布——那么神经网络会较快收敛,那么BN作者就开始推论了:图像是深度神经网络的输入层,做白化能加快收敛,那么其实对于深度网络来说,其中某个隐层的神经元是下一层的输入,意思是其实深度神经网络的每一个隐层都是输入层,不过是相对下一层来说而已,那么能不能对每个隐层都做白化呢?这就是启发BN产生的原初想法,而BN也确实就是这么做的,可以理解为对深层神经网络每个隐层神经元的激活值做简化版本的白化操作。



注意:

1. μ是依赖于输入的,σ是依赖于输入和μ的。

2. 我们希望μ和σ代表整个training set 全体的statistic 输出,但是在实际上,统计全体training set 的statistic 是否非常耗时也不切实际的,所以一般计算batch normalization时候是只会在一批训练数据中计算的,这意味着batch size 需要够大,如果batch size 太小的话,batch normalization 就会很差,因为无法从一个较小的batch里估测整个的 μ 和 σ 。

BN层通常使用在output到activation function之间因为:

如果激活函数是使用tanh(hyperbolic tangent)、sigmoid,他们是具有梯度弥散的区域,我们希望输入是落在微分比较大的区域(0的附近),如果先做normalization就能够确认我们的输入会落在 0 区域附近,这也是零均值化所做的事情.(mean = 0)


论文中BN不仅仅这么做,它还做了一个步骤:

在归一化之后,又加了一个线性变化,这里的r和β的参数是由机器自己学的。

为什么这么做的原因,论文讲的也不清楚,摘抄点其他人的看法:

我们知道,BN其实就是把隐层神经元激活输入x=WU+B从变化不拘一格的正态分布通过BN操作拉回到了均值为0,方差为1的正态分布,即原始正态分布中心左移或者右移到以0为均值,拉伸或者缩减形态形成以1为方差的图形。什么意思?就是说经过BN后,目前大部分Activation的值落入非线性函数的线性区内,其对应的导数远离导数饱和区,这样来加速训练收敛过程。

但是很明显,看到这里,稍微了解神经网络的读者一般会提出一个疑问:如果都通过BN,那么不就跟把非线性函数替换成线性函数效果相同了?这意味着什么?我们知道,如果是多层的线性函数变换其实这个深层是没有意义的,因为多层线性网络跟一层线性网络是等价的。这意味着网络的表达能力下降了,这也意味着深度的意义就没有了。所以BN为了保证非线性的获得,对变换后的满足均值为0方差为1x又进行了scale加上shift操作(y=scale*x+shift),每个神经元增加了两个参数scaleshift参数,这两个参数是通过训练学习到的,意思是通过scaleshift把这个值从标准正态分布左移或者由移一点并长胖一点或者变瘦一点,每个实例挪动的程度不一样,这样等价于非线性函数的值从正中心周围的线性区往非线性区动了动。核心思想应该是想找到一个线性和非线性的较好平衡点,既能享受非线性的较强表达能力的好处,又避免太靠非线性区两头使得网络收敛速度太慢。当然,这是我的理解,论文作者并未明确这样说。但是很明显这里的scaleshift操作是会有争议的,因为按照论文作者论文里写的理想状态,就会又通过scaleshift操作把变换后的x调整回未变换的状态,那不是饶了一圈又绕回去原始的“Internal Covariate Shift”问题里去了吗,感觉论文作者并未能够清楚地解释scaleshift操作的理论原因。


还有一种解释:

如果我们希望使用非 0 均值类型的激活函数,比如ReLU

有时候可能不希望你得到的output的mean 是0, variance 是1。可以给输出之前乘以γ 再加上 β,

γ和β可以当作网络的参数,他们也是可以跟着网络被一起学习出来的。

(γ和β)与(μ和σ)不一样的地方是,前者不受输入数据影响,是根据网络所需进行独立调整的。因此,这样的好处就是可以让网络具有学习非线性的效果,而不会被拘泥于线性的变化。



最后总结下BN的好处:


1. 解决了Internal Covariate Shift内部协方差移位的问题,这个问题会导致Learning Rate只能设的非常。解决这个问题可以让Learning Rate设大一些,训练就会更快

2. BN对防止Gradient Vanishing梯度弥散的问题是有帮助的。比如sigmoid 和tanh 如果输入很大或者很小,极有可能导致梯度弥散。但是加上BN后,就能保证输入在 0 附近,都是斜率比较大的线性区。

3. BN对于参数初始化的影响比较小

为什么呢?
假设现在把 输入的w1 都乘以 K 倍,当然他的输出Z 也会乘以 K 倍,这是BN中的 μ σ 都会乘上 K 倍,然而可以发现分子成了K 倍, 分母也乘上 K 倍,就是什么事也没有发生!!






【基于QT的调色板】是一个使用Qt框架开发的色彩选择工具,类似于Windows操作系统中常见的颜色选取器。Qt是一个跨平台的应用程序开发框架,广泛应用于桌面、移动和嵌入式设备,支持C++和QML语言。这个调色板功能提供了横竖两种渐变模式,用户可以方便地选取所需的颜色值。 在Qt中,调色板(QPalette)是一个关键的类,用于管理应用程序的视觉样式。QPalette包含了一系列的颜色角色,如背景色、前景色、文本色、高亮色等,这些颜色可以根据用户的系统设置或应用程序的需求进行定制。通过自定义QPalette,开发者可以创建具有独特视觉风格的应用程序。 该调色板功能可能使用了QColorDialog,这是一个标准的Qt对话框,允许用户选择颜色。QColorDialog提供了一种简单的方式来获取用户的颜色选择,通常包括一个调色板界面,用户可以通过滑动或点击来选择RGB、HSV或其他色彩模型中的颜色。 横渐变取色可能通过QGradient实现,QGradient允许开发者创建线性或径向的色彩渐变。线性渐变(QLinearGradient)沿直线从一个点到另一个点过渡颜色,而径向渐变(QRadialGradient)则以圆心为中心向外扩散颜色。在调色板中,用户可能可以通过滑动条或鼠标拖动来改变渐变的位置,从而选取不同位置的颜色。 竖渐变取色则可能是通过调整QGradient的方向来实现的,将原本水平的渐变方向改为垂直。这种设计可以提供另一种方式来探索颜色空间,使得选取颜色更为直观和便捷。 在【colorpanelhsb】这个文件名中,我们可以推测这是与HSB(色相、饱和度、亮度)色彩模型相关的代码或资源。HSB模型是另一种常见且直观的颜色表示方式,与RGB或CMYK模型不同,它以人的感知为基础,更容易理解。在这个调色板中,用户可能可以通过调整H、S、B三个参数来选取所需的颜色。 基于QT的调色板是一个利用Qt框架和其提供的色彩管理工具,如QPalette、QColorDialog、QGradient等,构建的交互式颜色选择组件。它不仅提供了横竖渐变的色彩选取方式,还可能支持HSB色彩模型,使得用户在开发图形用户界面时能更加灵活和精准地控制色彩。
标题基于Spring Boot的二手物品交易网站系统研究AI更换标题第1章引言阐述基于Spring Boot开发二手物品交易网站的研究背景、意义、现状及本文方法与创新点。1.1研究背景与意义介绍二手物品交易的市场需求和Spring Boot技术的适用性。1.2国内外研究现状概述当前二手物品交易网站的发展现状和趋势。1.3论文方法与创新点说明本文采用的研究方法和在系统设计中的创新之处。第2章相关理论与技术介绍开发二手物品交易网站所涉及的相关理论和关键技术。2.1Spring Boot框架解释Spring Boot的核心概念和主要特性。2.2数据库技术讨论适用的数据库技术及其在系统中的角色。2.3前端技术阐述与后端配合的前端技术及其在系统中的应用。第3章系统需求分析详细分析二手物品交易网站系统的功能需求和性能需求。3.1功能需求列举系统应实现的主要功能模块。3.2性能需求明确系统应满足的性能指标和安全性要求。第4章系统设计与实现具体描述基于Spring Boot的二手物品交易网站系统的设计和实现过程。4.1系统架构设计给出系统的整体架构设计和各模块间的交互方式。4.2数据库设计详细阐述数据库的结构设计和数据操作流程。4.3界面设计与实现介绍系统的界面设计和用户交互的实现细节。第5章系统测试与优化说明对系统进行测试的方法和性能优化的措施。5.1测试方法与步骤测试环境的搭建、测试数据的准备及测试流程。5.2测试结果分析对测试结果进行详细分析,验证系统是否满足需求。5.3性能优化措施提出针对系统性能瓶颈的优化建议和实施方案。第6章结论与展望总结研究成果,并展望未来可能的研究方向和改进空间。6.1研究结论概括本文基于Spring Boot开发二手物品交易网站的主要发现和成果。6.2展望与改进讨论未来可能的系统改进方向和新的功能拓展。
1. 用户与权限管理模块 角色管理: 学生:查看个人住宿信息、提交报修申请、查看卫生检查结果、请假外出登记 宿管人员:分配宿舍床位、处理报修申请、记录卫生检查结果、登记晚归情况 管理员:维护楼栋与房间信息、管理用户账号、统计住宿数据、发布宿舍通知 用户操作: 登录认证:对接学校统一身份认证(模拟实现,用学号 / 工号作为账号),支持密码重置 信息管理:学生完善个人信息(院系、专业、联系电话),管理员维护所有用户信息 权限控制:不同角色仅可见对应功能(如学生无法修改床位分配信息) 2. 宿舍信息管理模块 楼栋与房间管理: 楼栋信息:名称(如 "1 号宿舍楼")、层数、性别限制(男 / 女 / 混合)、管理员(宿管) 房间信息:房间号(如 "101")、户型(4 人间 / 6 人间)、床位数量、已住人数、可用状态 设施信息:记录房间内设施(如空调、热水器、桌椅)的配置与完好状态 床位管理: 床位编号:为每个床位设置唯一编号(如 "101-1" 表示 101 房间 1 号床) 状态标记:标记床位为 "空闲 / 已分配 / 维修中",支持批量查询空闲床位 历史记录:保存床位的分配变更记录(如从学生 A 调换到学生 B 的时间与原因) 3. 住宿分配与调整模块 住宿分配: 新生分配:管理员导入新生名单后,宿管可按专业集中、性别匹配等规则批量分配床位 手动分配:针对转专业、复学学生,宿管手动指定空闲床位并记录分配时间 分配结果公示:学生登录后可查看自己的宿舍信息(楼栋、房间号、床位号、室友列表) 调整管理: 调宿申请:学生提交调宿原因(如室友矛盾、身体原因),选择意向宿舍(需有空位) 审批流程:宿管审核申请,通过后执行床位调换,更新双方住宿信息 换宿记录:保存调宿历史(申请人、原床位、新床位、审批人、时间) 4. 报修与安全管理模块 报修管理: 报修提交:学生选择宿舍、设施类型(如 "
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值