Deepnet训练1000层的Transformer究竟有什么困难?

文章探讨了在深度学习中,使用SGD优化时损失函数的变化与网络层数的关系。通过增大恒等路径权重和优化残差分支的初始化,DeepNet旨在控制参数梯度为N的平方根级别,从而使得损失变化不随层数显著增加。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

总结一下:对于SGD有
Δθ=−η∇θL(θ)\Delta\theta=-\eta\nabla_{\theta}L(\theta)Δθ=ηθL(θ)
那么
ΔL≈−η∣∣∇θL(θ)∣∣2\Delta L\approx-\eta||\nabla_{\theta}L(\theta)||^2ΔLη∣∣θL(θ)2
设模型有N层,每层的平均参数量为K,配合Xavier初始化以及各种Normalization手段,我们可以使得多数参数的梯度是𝒪(1)量级,所以
ΔL=O(ηNK)=正比于N\Delta L=O(\eta NK)=正比于NΔL=O(ηNK)=正比于N
对比这两个 ΔL\Delta LΔL的表达式,目标是把参数的梯度∇θL(θ)\nabla_{\theta}L(\theta)θL(θ)控制到1N\frac{1}{\sqrt N}N1的量级,这样的话loss的变化不会显著受到层数的影响。

DeepNet怎么控制的呢?DeepNet所提出的两个改进点——增大恒等路径权重和降低残差分支初始化
在这里插入图片描述

以下转载自:https://kexue.fm/archives/8978

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值