- 随机梯度下降法(SGD)对于训练深度网络简单高效,但是它有个毛病,就是需要我们人为的去选择参数,比如学习率、参数初始化、权重衰减系数、Drop out比例等。这些参数的选择对训练结果至关重要,以至于我们很多时间都浪费在这些的调参上。那么使用BN之后,你可以不需要那么刻意的慢慢调整参数。
1.我们知道数据在输入到神经网络之前要进行预处理,其中包括数据增强,裁剪、归一化等操作,这会使网络对数据分布达到更好的训练效果。
2.那是不是考虑将每一层网络的输出也经过一次预处理再输送到下一层网络,通过这样的做法使网络的泛化性和训练速度更优呢?
3.BN层主要是解决“Internal Covariate Shift”的问题,因为网络主要学习的是数据集的分布。但数据经过深层次的网络后分不会发生变化,这样变化后的数据在经过下一层网络,会引发梯度爆炸或消失(只要网络的前面几层发生微小的改变,那么后面几层就会被累积放大下去。一旦网络某一层的输入数据的分布发生改变,那么这一层网络就需要去适应学习这个新的数据分布,所以如果训练过程中,训练数据的分布一直在发生变化,那么将会影响网络的训练速度
)。
4.BN的计算流程:
- 对每层数据都进行这样的操作,防止数据的分布
- 计算样本均值。
- 计算样本方差。
- 样本数据标准化处理。
- 进行平移和缩放处理。引入了γ和β两个参数。来训练γ和β两个参数。引入了这个可学习重构参数γ、β,让我们的网络可以学习恢复出原始网络所要