作用 1.解决反向传播时的梯度爆炸/消失 2.可以使用较大的学习率 3.缓解过拟合,可以去掉dropout和L2正则化等其他降低训练速度的trick 原理 1.将样本规范化至0均值,1方差 μ B = 1 m ∑ i = 1 N x i μ_B=\frac 1 m\sum_{i=1}^N{x_i} μB=m1∑i=1Nxi 2.使每一层激活函数的输入在各维度上有相似的分布