批量归一化&卷积神经网络

批量归一化

为什么不同的参数在更新时其梯度变化如此之大?

7e684273c3cb41e9901e0ae5a71ee1d2.png920776d06ea04285b2fe923a973ae993.png

首先,对于模型中w1,w2两个参数,可以看到其w1参数的梯度变化较为平滑,w2梯度变化较为陡峭,原因是x1较小时,当w1变化较大,由于x1较小,其整体乘积较小,对损失值影响不大;x2较大时,w2发生变化,其乘积较大,其对损失值变化很大,影响较大。

如何解决这一问题呢?

可以考虑采用特征归一化,出现上述问题,其归根到底是因为输入数值的变化范围太大,将其范围设限在相同范围内,可以很好的解决误差表面较差的问题。

e1933d4cc7aa4d8e8bb8ed02e6082d2d.png

57bddc34b3ff4a0ab568021676e3dba5.png

对于x进行归一化处理,但是其W1层输出结果作为新的输入时,其范围仍然可能不同,所以应该在输入到W2层前再次进行归一化处理,那么归一化处理在激活函数前处理还是在激活函数后处理呢?这个问题,其实往往都可以,但sigmoid激活函数往往希望在前面进行处理,即对z进行处理。

进行归一化处理时,需要计算数据集的均值和标准差?

整体数据集较大时,其GPU可能算力不够,所以往往采用批量归一化,即对一个批次的数据进行均值和标准差的计算,(如果一个批次的数据规模较大,其分布和全部数据的分布相似,可以用该批次的均值和标准差进行

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值