本文是深度学习相关文章,针对《Transformers are Multi-State RNNs》的翻译。
Transformers是多状态的RNNs
摘要
与上一代最先进的NLP模型——递归神经网络(RNN)相比,transformer在概念上被认为是不同的。在这项工作中,我们证明了仅解码器transformer实际上可以被概念化为无限多状态RNN——一种具有无限隐藏状态大小的RNN变体。我们进一步证明,通过固定其隐藏状态的大小,可以将预训练的transformer转换为有限的多状态RNN。我们观察到,几种现有的transformer缓存压缩技术可以作为这样的转换策略,并引入了一种新的策略TOVA,与这些策略相比,它更简单。我们对几个长范围任务的实验表明,TOVA优于所有其他基线策略,同时几乎与完整(无限)模型不相上下,并且在某些情况下仅使用原始缓存大小的1/8。我们的结果表明,transformer-解码器LLM在实践中通常表现为RNN。他们还提出了减轻最痛苦的计算瓶颈之一——缓存大小的选择。我们公开发布我们的代码仓库。
1 引言
2 背景
3 Transformers是多状态的RNN
4 实验设置
5 预训练Transformers充当有限MSRNs
6 分析
7 相关工作
8 结论
在这项工作中,我们将解码器Transformer重新定义为具有无限多状态大小的多状态RNN(MSRNN)的一种形式。我们强调,限制Transformer在每一步可以处理的token表示的数量相当于将其从无限MSRNN压缩到有限MSRNN。
然后,我们介绍了TOVA,这是一种概念上简单的压缩方法,可以选择哪些token继续使用它们的注意力分数。我们的研究结果强调了与现有压缩策略相比其优越的性能。此外,我们表明,在许多情况下,TOVA的性能与无限MSRNN模型相当,同时需要1/8–1/4的多状态大小。值得注意的是,我们的结果表明,尽管Transformer没有经过这样的训练,但它们通常起到有限MSRNN的作用。
我们的研究结果揭示了Transformer的相互作用及其与RNN的联系。它们还具有实用价值——可以将LLM缓存大小显著减少88%。