ABSTRACT
自从transformer模型被提出以来,一个基本问题尚未得到回答:对于比训练中看到的更长的序列,模型如何在推理时实现外推。我们首先证明了外推可以通过简单地改变位置表示方法来实现,尽管我们发现目前的方法不允许有效的外推。因此我们引入了一个更加简单而且更高效的位置表示方法,即Attention with Linear Biases(ALiBi)。ALiBi不会将position embedding和word embedding相加,它使query-key的注意力得分产生偏差,惩罚与他们的距离成正比 。实验表明,该方法在长度为1024的输入序列上训练13亿参数模型,该模型外推到长度为2048的输入序列,实现了与在长度为2048输入上训练的正弦位置嵌入模型相同的困惑度 ,但训练速度快11%,使用的内存少11%。ALiBi对时间的归纳偏见也使其在WikiText-103基准测试中优于多种强位置方法。
1. INTRODUCTION
在构建一个基于transformer的模型时,一个主要的设计是对训练时序列长度的设计,在这里用 L L
论文研究表明,正弦位置嵌入的Transformer模型在推理时难以外推到训练时未见过的输入长度。ALiBi(Attention with Linear Biases)方法通过引入线性递减惩罚,提高了模型的外推能力,允许在较短序列上训练的模型在推理时处理更长序列,实现与正弦模型相当的性能,但训练速度更快、内存使用更少。ALiBi在外推到训练长度的两倍时达到最佳效果,有效降低了早期token的困惑度。
订阅专栏 解锁全文
826

被折叠的 条评论
为什么被折叠?



