为什么使用归一化

对一sigmoid的函数来说,处在边角位置的点更新慢,并且离散度高不利于聚合。
Nomalization将输入的值控制在有效的范围之内。得到以0为均值,1为方差的值。

不进行归一化的化,loss函数求解梯度左图较比之右图更加的曲折。
pytorch实现归一化

不同Norm选取方式

蓝色为一次选取的一个Norm。
BN

对于三个通道作为BN,z为BN公式

pytorch实现


2d的BN大小为16



在测试的时候,μ,σ为全局的而非batch的;又由于有没有后向传播,所以没有β,γ的更新
使用BN对比

优势