(九十四):GLU Variants Improve Transformer
- 出处:CoRR abs/2002.05202 (2020)
- 代码:https://github.com/labmlai/annotated_deep_learning_paper_implementations
- 题目:GLU变体改进变压器
- 主要内容:
Abstract
门控线性单元[Dauphin等人,2016]由两个线性投影的组件级乘积组成,其中一个首先通过一个sigmoid函数。GLU的变化是可能的,通过使用不同的非线性(甚至线性)函数来代替sigmoid函数。我们在Transformer [Vaswani等人,2017]序列对序列模型的前馈子层中测试了这些变体,发现其中一些比通常使用的ReLU或GELU激活产生了质量改善。
1. Introduction
Transformer [Vaswani等人,2017]序列对序列模型在多头注意和它所称的“位置前馈网络”(FFN)之间交替。
FFN取一个向量x(序列中特定位置的隐藏表示),并将其通过两个已知的线性变换(由矩阵W1和W2以及偏置向量b1和b2表示)。一个修正线性(ReLU) [Glorot等人,2011]激活函数应用于两个线性变换之间。