【大模型】激活函数之SwiGLU详解

最新推荐文章于 2025-10-24 13:47:25 发布

原创

最新推荐文章于 2025-10-24 13:47:25 发布 · 4.3k 阅读

·

32

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#大模型 #语言模型

文章目录

1. Swish
2. GLU (Gated Linear Unit)
3. SwiGLU
参考资料

SWiGLU是大模型常用的激活函数，是2020年谷歌提出的激活函数，它结合了Swish和GLU两者的特点。SwiGLU激活函数因其在多个方面的优势而被广泛应用于大型语言模型中。

1. Swish

基本定义

Swish是由Google Brain提出的一种激活函数，它的数学表达式如下：
在这里插入图片描述

其中 $\sigma(x)$ 是sigmoid函数，β是一个可学习的参数。

当β趋近于0时，Swish函数趋近于线性函数 $y = x^2$
当β取值为1时，Swish函数是光滑且非单调的，等价于SiLU激活函数
当β趋近于无穷大时，Swish函数趋近于ReLU函数。

Swish函数的图如下所示：
在这里插入图片描述

Swish的名称可能来源于其形状与鱼的尾巴相似，给人一种平滑、流畅的联想，这与"swish"这个词的含义相吻合。

补充：SiLU（Sigmoid Linear Unit）激活函数表达式如下：

SiLU具备无上界有下界、平滑、非单调的特性。SiLU在深层模型上的效果优于 ReLU。可以看做是平滑的ReLU激活函数。

主要特点

Swish函数的特点包括：

非线性：Swish引入了非线性，使得神经网络能够学习和模拟复杂的函数。
平滑性：Swish函数在整个定义域内都是光滑且连续的，这有助于在优化过程中计算梯度。
自适应性：Swish函数的输出取决于输入值，这使得它能够自适应地调整激活函数的形状。

Swish函数在一些实验中表现出了比ReLU更好的性能，尤其是在一些深度神经网络中。Swish函数既有 ReLU（Rectified Linear Unit）激活函数的一些优点（例如，能够缓解梯度消失问题），又能解决 ReLU 函数的一些缺点（例如，ReLU 函数不是零中心的，且在负数部分的梯度为零）。此外，Swish 函数还是平滑函数，这意味着它在整个定义域内都有导数，这有利于优化。然而，Swish函数的计算复杂度较高，因为它涉及到sigmoid函数的计算。因此，在实际应用中，需要根据具体的任务和模型结构来选择合适的激活函数。

代码实现

Swish函数的代码实现如下：

import numpy

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。