tensorflow中如何正确使用BatchNorm(涵盖所有BN的坑)
在caffe中使用BatchNorm层很简单,只要注意一点,在训练时将use_global_states设为false,测试前向阶段将use_global_states设为true即可。在tensorflow中使用batchnorm层有几个地方需要注意,不然会踩坑导致训练不收敛或者测试时准确率降低很多,推荐使用tf.layers.batch_normalization函数实现BN归一化。
1、训练时training设置为True,测试时training设置为False
BN层中有两个参数是需要学习和进行反向传播的,分别是尺度参数gamma和偏移因参数beta,目的是利用这两个参数进行线性变换,以恢复输入数据本身的表征能力。 所以在训练阶段和测试阶段需要对trainable设置不同的值,以保证待学习的参数在训练过程中可以进行反向传播。
训练:
x = tf.layers.batch_normalization(x, axis=3, training=True)
测试:
x = tf.layers.batch_normaliz