BN的作用:
避免梯度消失
为什么BN能避免梯度消失:
BN将原本的数据强制拉回均值为0,方差为1的正态分布,使得BN后的数据在经过sigmoid这类激活函数后不会落入饱和区,让数据更多的分布在激活函数的非饱和区,从而避免梯度消失。
为什么BN还要学习gamma和beta参数?
由于BN破坏了原始数据的分布,破坏了原始数据的特征分布,降低了原数据的拟合能力,为了抵消BN对原数据特征的影响,从而要学习这放缩和平移这两个参数
批量归一化(Batch Normalization)通过强制数据服从均值为0,方差为1的分布,防止激活函数饱和,避免梯度消失。同时,BN引入gamma和beta参数来补偿数据特征的损失,提高模型拟合能力。
BN的作用:
避免梯度消失
为什么BN能避免梯度消失:
BN将原本的数据强制拉回均值为0,方差为1的正态分布,使得BN后的数据在经过sigmoid这类激活函数后不会落入饱和区,让数据更多的分布在激活函数的非饱和区,从而避免梯度消失。
为什么BN还要学习gamma和beta参数?
由于BN破坏了原始数据的分布,破坏了原始数据的特征分布,降低了原数据的拟合能力,为了抵消BN对原数据特征的影响,从而要学习这放缩和平移这两个参数
3940

被折叠的 条评论
为什么被折叠?