Batch Normalization
假设我们有两组training data:x1=[1,2,3,⋯]x1=[1,2,3,⋯],x2=[100,200,300,⋯],x2=[100,200,300,⋯]
当我们利用这组数据进行机器学习的时候,会发现对于第一笔数据x1x1,它的梯度会比第二笔数据x2x2的梯度要小得多,这时候的训练的收敛过程大致可以由下图表现出来。
两个权重跨度范围不一样,如果使用相同的学习率,则在w1w1的学习过程会非常慢,可能w2w2都收敛了,而w1w1还没有完成学习过程。
那如果我们对输入进行调整,使它们的分布大致相同的话,它们的收敛速度就会变得一致,收敛过程大概如下图:
这个时候两个权重的收敛速度大致可以趋于一致。
上面介绍的这种将数据分布相似化的过程暂且称为数据的规整化,它的做法其实很简单就
深度学习中的Batch Normalization
最新推荐文章于 2025-05-29 21:53:57 发布