该问题归类到Transformer架构问题集——前馈网络——全连接层。请参考LLM数学推导——Transformer架构问题集。
1. 引言
在大语言模型(LLM)的复杂架构中,激活函数是赋予模型非线性表达能力的关键组件。GeLU(Gaussian Error Linear Units)激活函数凭借其独特的自适应特性,在 Transformer 等主流 LLM 架构中广泛应用。然而,由于其表达式 中的
(标准正态分布的累积分布函数)不存在显式初等函数形式,实际计算依赖近似方法,这就产生了近似误差问题。深入探究这些误差,对理解 LLM 的运行机制与性能优化至关重要。
2. GeLU 激活函数基础理论
2.1 函数定义与特性
GeLU 激活函数定义为 ,其中
。该函数通过融合输入 x 与标准正态分布的累积概率信息,实现自适应激活:当 x 较大时,
趋近于 1,
近似线性;当 x 较小时,
趋近于 0,对输入进行收缩。这种特性使 GeLU 能更好捕捉数据非线性特征,增强模型表达能力。
2.2
的常见近似方法
2.2.1 泰勒级数展开
基于泰勒