ReLU对于0的输出的梯度为0, 所以一旦陷入了0输出, 就没法恢复了。
过小的 feature_size/kernel_size的比值会造成BN的统计值不稳定;kernel_dim 过小的时候, 加ReLU 容易使得整个kernel退化成空白。
BN在最后的时候会fix,然后再训练5~10W次。
探讨ReLU激活函数在遇到0输出时的梯度消失问题及其对神经元的影响,以及批标准化(BN)在不同场景下可能带来的统计值不稳定和特征退化问题。文章还提到了BN在训练后期固定参数的实践。
ReLU对于0的输出的梯度为0, 所以一旦陷入了0输出, 就没法恢复了。
过小的 feature_size/kernel_size的比值会造成BN的统计值不稳定;kernel_dim 过小的时候, 加ReLU 容易使得整个kernel退化成空白。
BN在最后的时候会fix,然后再训练5~10W次。
1139
4271

被折叠的 条评论
为什么被折叠?