本文是LLM系列文章,针对《Blockwise Parallel Transformer for Long Context Large Models》的翻译。
长上下文大模型的分块并行Transformer
摘要
Transformer已经成为最先进的自然语言处理模型的基石,在广泛的人工智能应用中展示了卓越的性能。然而,Transformer中的自注意机制和大型前馈网络带来的内存需求限制了它们处理长序列的能力,从而给涉及多个长序列或长期依赖性的任务带来了挑战。我们提出了一种独特的方法,分块并行Transformer(BPT),它利用自注意和前馈网络融合的分块计算来最大限度地降低内存成本。通过处理较长的输入序列,同时保持内存效率,BPT使训练序列比普通Transformers长32倍,比以前的内存高效方法长4倍。对语言建模和强化学习任务的大量实验证明了BPT在减少记忆需求和提高性能方面的有效性。