(九十四):GLU Variants Improve Transformer
- 出处:CoRR abs/2002.05202 (2020)
- 代码:https://github.com/labmlai/annotated_deep_learning_paper_implementations
- 题目:GLU变体改进变压器
- 主要内容:
Abstract
门控线性单元[Dauphin等人,2016]由两个线性投影的组件级乘积组成,其中一个首先通过一个sigmoid函数。GLU的变化是可能的,通过使用不同的非线性(甚至线性)函数来代替sigmoid函数。我们在Transformer [Vaswani等人,2017]序列对序列模型的前馈子层中测试了这些变体,发现其中一些比通常使用的ReLU或GELU激活产生了质量改善。
1. Introduction
Transformer [Vaswani等人,2017]序列对序列模型在多头注意和它所称的“位置前馈网络”(FFN)之间交替。
FFN取一个向量x(序列中特定位置的隐藏表示),并将其通过两个已知的线性变换(由矩阵W1和W2以及偏置向量b1和b2表示)。一个修正线性(ReLU) [Glorot等人,2011]激活函数应用于两个线性变换之间。
该博客探讨了门控线性单元(GLU)及其变体如何改进Transformer模型的性能。GLU由两个线性投影和sigmoid激活的组件级乘组成。作者测试了不同非线性函数替换sigmoid的效果,并在Text-to-Text Transfer Transformer(T5)上进行了实验,发现在预训练和微调阶段,某些GLU变体如GEGLU和SwiGLU能提高模型的困惑度和下游任务的表现。
订阅专栏 解锁全文
1674

被折叠的 条评论
为什么被折叠?



