背景:
深度神经网络涉及到很多层的叠加,而每一层的参数更新都会导致上层的输入数据分布发生变化。
层层叠加,高层的输入分布,变化会非常剧烈,使得高层需要不断去重新适应底层的参数更新。
计算:
计算样本的均值和方差,
作用:规范优化空间,保证数据特征分布的稳定性(前向传播的输入分布变的稳定,后向的梯度更加稳定)
数据如果稳定的话,模型的收敛就会加速。
不依赖于其他数据进行归一化。
背景:
深度神经网络涉及到很多层的叠加,而每一层的参数更新都会导致上层的输入数据分布发生变化。
层层叠加,高层的输入分布,变化会非常剧烈,使得高层需要不断去重新适应底层的参数更新。
计算:
计算样本的均值和方差,
作用:规范优化空间,保证数据特征分布的稳定性(前向传播的输入分布变的稳定,后向的梯度更加稳定)
数据如果稳定的话,模型的收敛就会加速。
不依赖于其他数据进行归一化。