Transformer数学推导——Q51 残差连接 x+Sublayer(x) 的梯度幅度下界证明(假设 Sublayer 初始化为零)

该问题归类到Transformer架构问题集——残差与归一化——残差连接。请参考LLM数学推导——Transformer架构问题集

1. 引言

在深度学习领域,尤其是大型语言模型(LLM)的发展进程中,深度神经网络的训练面临着诸多挑战,梯度消失和梯度爆炸问题便是其中极为关键的阻碍。这些问题会严重影响模型的训练效率和性能,使得模型难以学习到数据中的复杂特征。为了解决这些问题,残差连接(Residual Connection)这一创新性的技术应运而生。残差连接以其独特的结构和特性,为梯度的稳定传播提供了有效的解决方案,在众多先进的模型架构中得到了广泛应用。

2. 技术背景

2.1 深度神经网络的困境

深度神经网络通过堆叠多个非线性层来学习数据中的复杂模式和特征。然而,随着网络层数的增加,梯度在反向传播过程中会经历多次矩阵乘法运算。如果网络层的权重矩阵特征值分布不合理,就会出现梯度消失或梯度爆炸的现象。

梯度消失意味着梯度在反向传播过程中逐渐趋近于零,导致模型参数更新极为缓慢甚至停滞,使得模型无法有效地学习到数据中的深层次特征。而梯度爆炸则是指梯度在传播过程中不断增大,导致模型参数更新幅度过大,模型无法收敛,甚至可能出现参数溢出的情况。

2.2 残差网络的诞生

为了克服深度神经网络中的梯度问题,何恺明等人在 2015 年提出了残差网络(Residual Network,ResNet)。残差网络的核心思想是引入残差块(Residual Block),其中包含了残差连接。残差连接允许网络学习残差映射,即 F(x)=H(x) - x,其中 x 是输入,H(x) 是期望的映射函数。通过这种方式,网络可以更容易地学习到恒等映射,从而缓解了梯度消失和梯度爆炸问题。

残差连接的表达式为 y = x+Sublayer(x),其中 x 是输入,Sublayer(x) 是子层对输入 x 进行的变换输出。这种结构使得梯度可以直接通过捷径连接(shortcut connection)进行传播,避免了梯度在多层非线性变换

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

墨顿

唵嘛呢叭咪吽

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值