关于Sigmoid数据输出不是zero-centered的理解

本文探讨了Sigmoid函数输出非零中心的缺点,及其对神经网络权重更新的影响。通过对比正数和负数梯度对权重调整的影响,阐述了零中心激活函数在加速训练过程中的作用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

讲到Sigmoid函数时,有一个缺点是Sigmoid函数的输出不是零中心的,那么为什么我们更需要一个零中心的激活函数呢?
在上cs231n的时候,对老师关于这部分内容的讲解云里雾里,在查阅一些资料后,放上自己的理解:
在这里插入图片描述
在这里插入图片描述
假设我们现在有两个函数,分别是一个线性加权函数和一个激活函数,我们知道在一个神经网络中这样的函数将会一层层重叠。对于sigmoid函数来说,它的输出始终为正数(非zero-centered),那下一层f的输入将全部为正数
在这里插入图片描述
现在假设我们的w是二维的,即包括(w1,w2),利用链式法则我们可以计算出w的梯度:
在这里插入图片描述
其中,f关于w的导数是x(在当前例子中f是线性函数),l关于f的导数取决于上游梯度,也就是正数或者负数。现在我们的x恒为正数,那么l关于w的导数的符号就是全为正或者全为负。(这里有一些小疑惑,在课程note中写到w的梯度具体依整个表达式f而定,那么默认l关于f的导数就是正数了吗(sigmoid)?而在课上老师又说w的梯度依上游梯度而定。具体问题我想先放一放,因为无论哪种解释这里w的导数总是固定符号的)

这就导致了w总是关于同一方向变化,我们可以用正数去增加w中所有的值,或者用负数去减少w中所有的值。

那么问题来了,若我们现在理想的过程是w1不断增加,w2不断减少,那么收敛的过程将会非常缓慢,如图所示,梯度下降权重更新时出现z字型的下降。
在这里插入图片描述
望大家指正:)

卷积神经网络是一种常用于图像识别和分类任务的深度学习模型。在这个网络中,使用了一些不同的层来处理和转换输入数据。 首先是卷积层(conv),它能够捕捉输入图像的空间特征。卷积层通过滑动一个称为卷积核的小窗口来提取图像中的特征。卷积操作可帮助学习出适合任务的特征,以便后续层能更好地进行分类。 接下来是sigmoid层,它是激活函数层的一种形式。激活函数的作用是为网络引入非线性特性。sigmoid函数可将输入值压缩到0到1之间的范围内,使其更易于进行计算和优化。 然后是池化层(pool),它在卷积层之后执行。池化操作的目标是减小特征图的尺寸,降低网络的计算负荷。通常的池化方式是取窗口内的最大值或平均值来减少特征图的维度。 在卷积和池化之后,经过全连接层(affine)。全连接层采用所有输入神经元与输出神经元之间的连接方式。每个神经元都接收上一层所有神经元的权重,这些权重用于计算输出。 再次使用sigmoid层进行非线性激活,以增强网络的非线性表达能力。 最后是softmax层,该层将网络的输出转换为一组概率分布,用于多类别分类。softmax函数可以将输出值归一化为0到1之间的概率分布,且所有概率之和为1。 在整个网络中,每个层的输出将作为下一层的输入,这样信息可以在网络中流动和更新权重进行训练,直到最后达到准确的预测结果。 通过这种卷积神经网络的层次结构和不同层之间的数据流动,可以提取输入数据的特征并进行分类预测。网络中的每个层都具有特定的功能,相互配合,使得网络可以学习到更加复杂和高级的特征。
评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值