该问题归类到Transformer架构问题集——残差与归一化——残差连接。请参考LLM数学推导——Transformer架构问题集。
1. 引言
在深度学习领域,尤其是大型语言模型(LLM)的发展进程中,深度神经网络的训练面临着诸多挑战,梯度消失和梯度爆炸问题便是其中极为关键的阻碍。这些问题会严重影响模型的训练效率和性能,使得模型难以学习到数据中的复杂特征。为了解决这些问题,残差连接(Residual Connection)这一创新性的技术应运而生。残差连接以其独特的结构和特性,为梯度的稳定传播提供了有效的解决方案,在众多先进的模型架构中得到了广泛应用。
2. 技术背景
2.1 深度神经网络的困境
深度神经网络通过堆叠多个非线性层来学习数据中的复杂模式和特征。然而,随着网络层数的增加,梯度在反向传播过程中会经历多次矩阵乘法运算。如果网络层的权重矩阵特征值分布不合理,就会出现梯度消失或梯度爆炸的现象。
梯度消失意味着梯度在反向传播过程中逐渐趋近于零,导致模型参数更新极为缓慢甚至停滞,使得模型无法有效地学习到数据中的深层次特征。而梯度爆炸则是指梯度在传播过程中不断增大,导致模型参数更新幅度过大,模型无法收敛,甚至可能出现参数溢出的情况。
2.2 残差网络的诞生
为了克服深度神经网络中的梯度问题,何恺明等人在 2015 年提出了残差网络(Residual Network,ResNet)。残差网络的核心思想是引入残差块(Residual Block),其中包含了残差连接。残差连接允许网络学习残差映射,即 ,其中 x 是输入,
是期望的映射函数。通过这种方式,网络可以更容易地学习到恒等映射,从而缓解了梯度消失和梯度爆炸问题。
残差连接的表达式为 ,其中 x 是输入,
是子层对输入 x 进行的变换输出。这种结构使得梯度可以直接通过捷径连接(shortcut connection)进行传播,避免了梯度在多层非线性变换