用pytorch构造GELU激活函数

最新推荐文章于 2025-10-24 20:37:24 发布

原创最新推荐文章于 2025-10-24 20:37:24 发布 · 2k 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#大数据 #深度学习 #python #pytorch #机器学习

本文介绍如何在Python 2及低版本PyTorch中，由于缺少GELU模块，作者通过自定义类实现了GELU激活函数，重点讨论了两种近似计算方法并比较其与nn.GELU的差异。

部署运行你感兴趣的模型镜像

因为一些原因必须使用python2+低版本的pytorch来跑代码，其中就遇到了低版本pytorch没有封装GELU激活函数的情况，所以在网上把该函数的源码找到了，自己构造了一个基于nn.Module的版本：

class GELU(nn.Module):#zengen
    def __init__(self):
        super(GELU, self).__init__()
    def forward(self, x):
        #return 0.5*x*(1+torch.tanh(np.sqrt(2/np.pi)*(x+0.044715*torch.pow(x,3))))
        return x * 0.5 * (1.0 + torch.erf(x / math.sqrt(2.0)))

其中第一个注释掉了的return是gelu原文中提出的一种近似计算版本，而下面那一个是pytorch中封装的版本，实测第一种会和nn.GELU计算的值略有差异，因此使用第二种。

您可能感兴趣的与本文相关的镜像

PyTorch 2.5

PyTorch

Cuda

PyTorch 是一个开源的 Python 机器学习库，基于 Torch 库，底层由 C++ 实现，应用于人工智能领域，如计算机视觉和自然语言处理

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

进取的好少年

关注关注

1
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

【深度学习】GELU激活函数是什么？

q742971636的博客

06-17

2300

应用 GELU 激活函数。GELUxx⋅ΦxGELUxx⋅Φx其中Φx\Phi(x)Φx是标准正态分布的累积分布函数。

大型语言模型训练中的激活函数演化：ReLU、GELU、Swish/SiLU、QuickGELU、SwiGLU

u013250861的博客

06-24

259

在大模型时代，激活函数的设计不再仅是数学上的优雅，更关乎训练效率、梯度稳定性和最终性能。从最初的ReLU，到GELU主导NLP，再到Swish家族和门控机制的加入，我们见证了激活函数从“线性阈值”到“自适应概率控制”的进化。未来的激活函数，可能更加定制化、动态化，甚至与模型结构共同进化。对于LLM开发者而言，选择合适的激活函数依然是提升模型性能的关键步骤之一。如需对应论文、图表和实验数据源，请随时提出，我可以为你补充完整参考资料或代码实现。

1 条评论您还未登录，请先登录后发表或查看评论

pytorch 的GELU激活函数实现

w137093940的博客

01-17

1万+

import torch import torch.nn as nn import torch.nn.functional as F import numpy as np from matplotlib import pyplot as plt class GELU(nn.Module): def __init__(self): super(GELU, self).__init__() def forward(self, x): return 0.5*..

PyTorch 深度学习笔记（十一）：GELU 激活函数在 PyTorch Transformer 中的应用

最新发布

2501_93928110的博客

10-24

364

)# 在FFN中使用。

深度学习笔记(二)——激活函数原理与实现

InkBamboo920的博客

04-22

3268

深度学习笔记(二)——激活函数原理与实现闲聊昨天详细推了下交叉熵，感觉还可以，今天继续加油。 ReLU 原理定义：ReLU是修正线性单元(rectified linear unit),在0和x之间取最大值。出现原因：由于sigmoid和tanh容易出现梯度消失，为了训练深层神经网络，需要一个激活函数神经网络，它看起来和行为都像一个线性函数，但实际上是一个非线性函数，允许学习数据中的复杂关系。该函数还必须提供更灵敏的激活和输入，避免饱和。而ReLU是非饱和激活函数，不容易发生梯度消失。 def R

PyTorch学习笔记：nn.GELU——GELU激活函数

qq_50001789的博客

02-18

1万+

PyTorch学习笔记：nn.GELU——GELU激活函数 出自论文《GAUSSIAN ERROR LINEAR UNITS (GELUS)》 - 相比于ReLU，GELU函数在临近原点时梯度不为零，减少了训练过程中梯度消失的问题； - 导函数比较光滑，无间断情况，容易做反向传播； - RELU计算复杂度较低，同时具有良好的性能，常用于大规模训练的任务，例如BERT、GPT等等。

【PyTorch】教程：torch.nn.GELU

03-16

8259

高斯误差线性单元函数。

【Block总结】NeLU（负斜率线性单元）函数|最新激活函数|独家复现|即插即用

AI浩

06-15

828

梯度重塑：数学设计：适用场景：通过乘法技巧注入梯度（公式6），确保梯度流经“死亡”神经元。损失曲面更平滑（图5），优化过程更稳定。性能对比：关键优势：核心贡献：应用价值：局限与未来：

使用Pytorch从零开始实现BERT

GarryWang1248的博客

12-02

2947

最后，我们准备好运行模型的训练。长话短说，打开main.py脚本文件，检查学习参数并运行。我在 nVidia GeForce 1050ti GPU 上训练了模型。如果支持cuda，模型将默认在 GPU 上进行训练。EPOCHS = 4嵌入大小为 64，隐藏注意力上下文大小为 36，批量大小为 12，注意力头数量为 4，编码器数量为 1。学习率为 7e-5。我们使用 TensorBoard 来跟踪训练过程。运行训练脚本后，您应该会看到它如何准备 IMDB 数据集训练开始了。

Pytorch中 nn.Transformer的使用详解与Transformer的黑盒讲解

热门推荐

iioSnail的博客

07-28

9万+

1. Transformer的训练过程讲解 2. Transformer的推理过程讲解 3. Transformer的入参和出参讲解 4. nn.Transformer的各个参数讲解 5. nn.Transformer的mask机制详解 6. 实战：使用nn.Transformer训练一个copy任务。

神经网络的激活函数 是什么这个函数可以随便定吗

08-06

同时，根据引用[3]，在Keras中激活函数可以通过单独的Activation层实现，也可以在构造层对象时通过传递activation参数实现。注意：回答中需要引用参考文献，在适当位置添加[^1][^2][^3]。此外，按照要求，数学...

PyTorch中激活函数GELU、Swish、Mish函数的实现

qq_39332551的博客

05-26

5736

GELU的中文名为高斯误差线性单元，它在自然语言处理领域被广泛应用。GELU激活函数结合了激活参数1或0的取值概率和神经网络的激活值，使得神经网络的激活值越小，其所乘的激活概率为1的概率越小，以此保留概率性和对输入的依赖性。具体实现如下： def gelu(x): return 0.5*x*(1+tanh(np.sqrt(2/np.pi)*(x+0.044715*pow(x,3)))) Swish和Mish函数可以看作是GELU的一个特例，可以替换模型中现有的激活函数，使模型精度有所提高。实现

GELU激活函数及matlab、python绘图

weixin_49322652的博客

11-14

2982

其基本原理为：受到Dropout、ReLU等机制的影响，它们都希望将不重要的激活信息规整为0，我们可以理解为，对于输入的值，我们根据它的情况乘上1或者0，更数学一点的描述是，对于每一个输入x，其服从标准的正态分布。RELU（Recitified Linear Unit ）线性整流单元又称为线性修正单元，是神经网络中最普遍的激活函数之一，可以用于解决梯度爆炸或梯度消失的问题，相对于其它激活函数其计算效率也比较高。函数图像为：左图函数图，中间一阶导数，右图二阶导数。，在之后乘上伯努利分布。

torch.nn.GELU

tianyunlinger的博客

08-16

1万+

m = nn.GELU() input = torch.randn(2) output = m(input) 误差函数图在数学中，误差函数(亦称高斯误差函数)，通常表示为ERF，是一个复变量的复函数，定义为： erf⁡z=2π∫0ze−t2 dt.\displaystyle \operatorname {erf} z={\frac {2}{\sqrt {\pi }}}\int _{0}^{z}e^{-t^{2}}\,dt.erfz=π2∫0ze−t2dt. 这个积分是特殊(非-初等) s.

激活函数：GELU（Gaussian Error Linear Units）

FriendshipTang的博客

04-18

5135

PyTorch、人工智能、深度学习、激活函数

[解决方法汇总] pytorch报错：‘GELU‘ object has no attribute ‘approximate‘

A_Student10000的博客

08-21

5276

使用yolo v5测试模型时，报错。

【Pytorch神经网络理论篇】 07 激活函数+Sigmoid+tanh+ReLU+Swish+Mish+GELU

小李的研究生学习日记

03-03

8371

①激活函数：主要通过加入非线性因素，你不线性模型表达能力不足的缺陷，因为神经网络中的数学基础是处处可微分的函数，故要求激活函数也应该保证数据的输入与输出是可微分。 ②激活函数可以分为饱和激活函数与不饱和激活函数，激活函数的右饱和指当x xx趋向于正无穷时，函数的导数趋近于0。同样的，当x xx趋向于负无穷时，函数的导数趋近于0，此时称为左饱和。当一个函数既满足右饱和，又满足左饱和，则称为饱和函数，否则称为非饱和函数。 1 Sigmoid函数对于分类任务来说，如果仅仅给出分类的结果，在某些场景下.

GELU

jacke121的专栏

12-30

4812

GELU 这个函数特别占内存,计算量很大，对检测有帮助,收敛比relu6快但是最高精度没有relu6高梯度最大在第一层卷积层类： #!/usr/bin/env python3 # -*- coding: utf-8 -*- import torch import math from torch import nn from torch.nn import functiona...

pytorch之torch基础学习

qq_41627642的博客

12-25

1969

然后，它将输出按顺序“链接”到每个后续模块的输入，最后返回最后一个模块的输出。或者，也可以创建一个OrderedDict来作为模块的方法接受输入Sequential，forward()将其转发给它包含的第一个模块。然后，它将输出按顺序“链接”到每个后续模块的输入，最后返回最后一个模块的输出。赋值张量没有这样的效果。这意味着model.base的参数将使用默认的学习率1e-2， model.classifier的参数将使用1e-3学习率，所有参数将使用动量0.9。模块的输入是索引列表，输出是相应的词嵌入。