Batch Normalization原理与优点总结
1. 引言 随着深度学习的发展,神经网络的模型的深度越来越大,虽然可以提取到数据中更加深层的特征信息,但是,也容易引起梯度消失或梯度爆炸等问题。当使用SGD优化函数时,我们经常会遇到以下两个问题:模型对参数初始化方式、学习率的设置特别敏感。 随着网络深度的加深,参数的微小变动都会不断被放大。 为了解决这两个问题,Sergey Ioffe等人在《Batch Normaliza...
原创
2018-11-29 12:10:07 ·
4688 阅读 ·
0 评论