Transformer——Q75 分析FFN中的参数共享（如跨层共享）对模型性能的影响

最新推荐文章于 2025-05-24 01:30:20 发布

原创

最新推荐文章于 2025-05-24 01:30:20 发布 · 671 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#transformer #深度学习 #人工智能 #前馈网络 #全连接层

该问题归类到Transformer架构问题集——前馈网络——全连接层。请参考LLM数学推导——Transformer架构问题集。

在大语言模型（LLM）的架构设计中，前馈神经网络（FFN）的参数共享策略是一个重要的研究方向。参数共享通过跨层或跨模块复用权重矩阵，能够显著减少模型参数量，提升训练效率，同时对模型性能产生复杂影响。本文将从数学原理、实际应用、优缺点分析、优化策略以及代码实现等多个维度，深入解析 FFN 中参数共享的内在机制和效果。

1. FFN 与参数共享基础概念

1.1 FFN 结构回顾

标准 Transformer 中的 FFN 包含两个线性层和一个非线性激活函数，其数学表达式为： $FFN(x) = \max(0, xW_1 + b_1)W_2 + b_2$

其中， $x \in \mathbb{R}^{d_{model}}$ 是输入向量， $W_1 \in \mathbb{R}^{d_{model} \times d_{ff}}$ ， $W_2 \in \mathbb{R}^{d_{ff} \times d_{model}}$ 是权重矩阵， $b_1 \in \mathbb{R}^{d_{ff}}$ ， $b_2 \in \mathbb{R}^{d_{model}}$ 是偏置项， $d_{ff}$ 是中间隐藏层维度，通常为 $d_{model}$ 的 4 倍。

1.2 参数共享类型

在 FFN 中，常见的参数共享方式包括：

跨层共享：在多层 Transformer 中，不同层的 FFN 使用相同的权重矩阵
跨头共享：在多头注意力机制中，不同注意力头的 FFN 共享参数
对称共享：在自编码器架构中，编码器与解码器的 FFN 共享参数
局部共享：仅共享部分参数，如只共享 $W_1$ 或 $W_2$

本文将重点分析跨层共享这一最常见的参数共享策略，其数学表达可表示为： $FFN_i(x) = \max(0, xW_1 + b_1)W_2 + b_2 \quad \forall i \in \{1, 2, \ldots, L\}$

其中，L是 Transformer 层数，所有层的 FFN 使用相同的 $W_1$ 、 $W_2$ 、 $b_1$ 和 $b_2$ 。

2. 参数共享的数学原理分析

2.1 参数量与计算复杂度

假设 Transformer 有L层，每层 FFN 的参数量为 $2d_{model}d_{ff} + d_{model} + d_{ff}$ 。在不共享参数的情况下，总参数量为： $L \times (2d_{model}d_{ff} + d_{model} + d_{ff})$

而采用跨层参数共享后，总参数量降为： $2d_{model}d_{ff} + d_{model} + d_{ff}$

参数量减少比例为： $\frac{(L-1) \times (2d_{model}d_{ff} + d_{model} + d_{ff})}{L \times (2d_{model}d_{ff} + d_{model} + d_{ff})} = \frac{L-1}{L}$ 例如，当L=12时，参数量减少约 91.7%。