将BN层的 γ\gammaγ初始化0: 对于ResNet来说,可以将残差块后面接的batch normalization层的γx^+β\gamma \hat{x}+\betaγx^+β 中的 γ\gammaγ 初始化为0。这样做的好处是,在初始化阶段可以简化网络,更快训练。