PyTorch 深度学习笔记（十一）：GELU 激活函数的高斯误差线性单元原理解析

GELU激活函数原理解析

原创于 2025-10-24 20:54:42 发布 · 339 阅读

CC 4.0 BY-SA版权

文章标签：

部署运行你感兴趣的模型镜像

GELU（Gaussian Error Linear Unit）是一种结合了随机正则化思想的激活函数，其设计灵感来源于神经网络的随机失活（Dropout）机制。该函数通过输入值与标准正态分布累积分布函数（CDF）的乘积实现非线性变换，数学表达式为：

[ \text{GELU}(x) = x \cdot \Phi(x) ]

其中，(\Phi(x)) 是标准正态分布的累积分布函数，定义为：

[ \Phi(x) = \frac{1}{2} \left(1 + \text{erf}\left(\frac{x}{\sqrt{2}}\right)\right) ]

由于精确计算 erf 函数可能带来较高的计算成本，实际应用中常采用以下近似形式：

[ \text{GELU}(x) \approx 0.5x \left(1 + \tanh\left(\sqrt{\frac{2}{\pi}} \left(x + 0.044715x^3\right)\right)\right) ]

该近似在保持精度的同时显著提升了计算效率，适合大规模深度学习模型的训练。

平滑性：GELU 在全局范围内可导，且导数连续，避免了类似 ReLU 的“硬边界”问题，有助于梯度传播的稳定性。

自适应调节：通过正态分布的累积概率对输入进行加权，GELU 能够根据输入分布动态调整激活强度，兼具线性和非线性的特性。

性能表现：在自然语言处理（如 BERT、GPT）和计算机视觉任务中，GELU 常表现优于 ReLU 和 LeakyReLU，尤其在深层网络中缓解了梯度消失问题。

PyTorch 提供了原生 torch.nn.GELU 模块，同时也支持自定义实现。以下是两种实现示例：

原生调用：

import torch.nn as nn
gelu = nn.GELU()
output = gelu(input_tensor)

手动近似实现：

import torch
import math

def gelu(x):
    return 0.5 * x * (1 + torch.tanh(math.sqrt(2 / math.pi) * (x + 0.044715 * x**3)))

GELU 的导数可通过链式法则推导：

[ \frac{d}{dx}\text{GELU}(x) = \Phi(x) + x \cdot \phi(x) ]

其中 (\phi(x)) 是标准正态分布的概率密度函数（PDF）。导数的平滑性有助于优化算法（如 Adam）的收敛。

适用场景：

注意事项：

您可能感兴趣的与本文相关的镜像

PyTorch 2.8

PyTorch

Cuda

PyTorch 是一个开源的 Python 机器学习库，基于 Torch 库，底层由 C++ 实现，应用于人工智能领域，如计算机视觉和自然语言处理