DEEPNORM:千层transformer...

本文介绍了DEEPNORM技术,一种改进的标准化方法,用于训练非常深层的Transformer模型,如DeepNet。通过修改残差链接并调整初始化参数比例,DEEPNORM确保了1000层Transformer的训练稳定性,并在性能上超越其他模型。这种创新的标准化方式主要应用于Transformer的前馈网络和注意力层,显著改善了参数更新的稳定性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

见过几层的mlp,也见过几十层的GoogleNet,还见过上百层的Resnet,上千层的transformer见过没!这篇论文<DeepNet: Scaling Transformers to 1000 Layers>它来了。它提出了一个简单有效的方法来训练"极深"的transformer。这篇论文提出了一个新的标准化方程(DEEPNORM)去修改transformer中的残差链接。该论文有着非常深入的理论分析模型在训练过程中参数更新是非常稳定的,使得1000层的transformer诞生,并且在各项指标上吊打其他模型。

5e4b95c347e11515ad32e5032ee9fe98.png

ed807f65f46a936e8598c463f33b54c8.png

基于Post-LN的transfomer,该文实现了DEEPNORM(如下图伪代码所示)。与Post-LN相比,DEEPNORM在进行layer-norm之前会扩大残差连接。除此以外,在初始化过程中降低了参数的比例。需要注意的是,该方法只会扩大前馈网络的权值的规模,以及attention层的投影值。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值