BN_batch normalization

最新推荐文章于 2025-03-20 16:42:23 发布

转载最新推荐文章于 2025-03-20 16:42:23 发布 · 105 阅读

·

0

·

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/abella/p/10282225.html

参考：

https://zhuanlan.zhihu.com/p/27938792

做法

设，每个batch输入是 x=[x_0,x_1,x_2,...,x_n] （其中每个 x_i 都是一个样本，是batch size）假如在第一层后加入Batch normalization layer后， h_1 的计算就倍替换为下图所示的那样。

矩阵先经过的线性变换后得到
- 注：因为减去batch的平均值 $\mu_B$ 后，的作用会被抵消掉，所以没必要加入（红色删除线）。
将再减去batch的平均值，并除以batch的标准差得到。是为了避免除数为0的情况所使用的微小正数。
- $\mu_B=\frac {1}{m} \sum^m_{i=0}W_{h_1}x_{i,:}$
- $\sigma^2_B=\frac {1}{m} \sum^m_{i=0}(W_{h_1}x_{i,:}-\mu_B)^2$
- 注：但基本会被限制在正态分布下，使得网络的表达能力下降。为解决该问题，引入两个新的parameters： $\gamma$ 和 $\beta$ 。 $\gamma$ 和 $\beta$ 是在训练时网络自己学习得到的。
将乘以 $\gamma$ 调整数值大小，再加上 $\beta$ 增加偏移后得到。
为加入非线性能力，也会跟随着ReLU等激活函数。
最终得到的会被送到下一层作为输入。

需要注意的是，上述的计算方法用于在训练。因为测试时常会只预测一个新样本，也就是说batch size为1。若还用相同的方法计算 $\mu_B$ ， $\mu_B$ 就会是这个新样本自身， $s_1-\mu_B$ 就会成为0。

所以在测试时，所使用的 $\mu$ 和 $\sigma^2$ 是整个训练集的均值 $\mu_P$ 和方差 $\sigma^2_P$ 。

而整个训练集的均值 $\mu_P$ 和方差 $\sigma^2_P$ 的值通常也是在训练的同时用移动平均法来计算

转载于:https://www.cnblogs.com/abella/p/10282225.html

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。