Transformer 论文通俗解读：FFN 中的非线性表达

最新推荐文章于 2025-11-14 14:19:02 发布

原创最新推荐文章于 2025-11-14 14:19:02 发布 · 1.3k 阅读

·

21

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#transformer #深度学习 #人工智能

Transformer通关秘籍专栏收录该内容

30 篇文章

订阅专栏

本文是通俗解读Transformer 论文的FFN部分，你可以点击本文最后左下角的标签查看全部内容。

在上一节介绍 FFN层时，提到了在 Transformer 架构中添加 FFN 层的一个作用：为了给神经网络增加非线性表达能力。

非线性是学习神经网络时的一个基础知识。

虽然基础，但是我还是希望针对这部分内容做一个更加详细的说明，希望你可以对此有一个更深刻的认识，而不仅仅是 Transfomer 结构。

1、线性系统是什么样的？

请你先回忆一个基础知识：什么是线性函数？回忆完毕后，继续往下看。

假设有一个线性函数：y = kx + b, 这个函数画出来是下面的样子，此时我们可以说 y 和 x 是线性关系。

而如果又有一个线性函数 z = hy + d，那么，我们可以推断出，变量 z 和 x 同样也是线性关系。

为什么呢? 因为你可以通过下面的变量代入变换得到：

z = hy + d = z(kx + b) + d = zk x + zb + d = zk(x) + (zb + d)

如果令 K = zk，B = zb + d，那么 z 和 x 的关系就可以写出 z = Kx + B。

所以，z 和 x 同样是线性关系，这里就引出一个前提——

两个线性函数的叠加还是线性关系，同理，多个线性函数的叠加最终还是线性关系？

2、FFN 中的 FC 是非线性还是线性呢？

不好意思，FFN 中的全连接层(FC)本身就是一个线性系统。

为了说明这个问题，我询问了一个AI模型，让其来回答一下这个问题。

AI 模型对于这类问题回答的非常好（这里贴个图你可以看一下，也省去了我打字的时间花销😂）。

甚至，你可以将两个首尾相连的全连接层看作是一个全连接层。

看到这你或许对非线性有了一个更深刻的认识了吧——

事实上，神经网络中的很多基础且核心的运算，比如卷积，比如全连接（矩阵乘法），都是一种线性变换层。

如果这些层后面直接连接其他的线性变换层，那么多个线性变换层会退化成一个。

因此，在这类的线性变换层后面，要添加非线性的激活函数，使得整个变换不至于是线性变换，从而使得神经网络模型可以拟合成更加复杂多变的非线性系统。

如此一来，模型就可以处理复杂的任务，而不用担心模型在数学上仅仅是一个简单的线性模型了。

在 Transformer 的 FFN 结构中，先后添加了两个 FC 层，因此，在两个 FC 中间是一定要加入非线性激活函数的，这也是为什么论文中给出的公式是下面的样子：

其中的 max(0, xW1 + b1) 便是对第一个线性层施加 Relu 激活函数。

本文暂且不论 FFN 中添加 FC 的作用，你只需要了解在多个线性层中间一定要添加非线性层，来防止多个线性层叠加退化成一个线性层就可以了。

关于 FFN 中添加 FC，也就是线性层的作用，在后面的文章中会进行详细介绍。防止文章丢失，你可以点击下面连接关注我，来获取最新的文章。

我的技术专栏已经有几百位朋友加入了。

如果你也希望了解AI技术，学习AI视觉或者大语言模型，戳下面的链接加入吧，这可能是你学习路上非常重要的一次点击呀

CV视觉入门第三版(细化版)完成

我的Transformer专栏努力更新中

最后，送一句话给大家：生活不止眼前，还有诗和远方，共勉~

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

董董灿是个攻城狮 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。