batchnorm 和layernorm的区别

本文介绍了BatchNorm和LayerNorm两种归一化技术在处理二维和三维数据时的区别。BatchNorm针对每个特征计算均值和方差,适合固定长度的输入;而LayerNorm则在每个样本上计算,适用于不定长输入,如语音和翻译任务。由于LayerNorm不依赖全局均值和方差,因此在样本长度变化时表现更稳定。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、输入是二维数据在这里插入图片描述
左侧是batchnorm,把每个特征计算均值方差,然后做归一化。
右侧是layernorm,把每个batch的数据计算均值和方差,然后归一化。可以理解为把数据转置之后做batchnorm,做完再转置回去。
二、输入是三维
在这里插入图片描述
batchnorm是按照图中蓝色的切割,然后再去做归一化。
layernorm是按照图中黄色的切割,然后再去做归一化。
优缺点:在语音、翻译等领域,输入是不定长的。导致batchnorm,样本长度变化时,bn算的均值和方差抖动比较大。而且bn是在训练结束后存一个全局的均值和方差,预测时用。当预测的长度和训练时候长度差别较大时,bn效果较差。
layernorm没有这个缺点,因为layernorm是对每个样本计算的均值和方差,不需要保存一个全局均值方差。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值