本文是LLM系列文章,针对《TransformerFAM: Feedback attention is working memory》的翻译。
摘要
虽然Transformer彻底改变了深度学习,但它们的二次注意力复杂性阻碍了它们处理无限长输入的能力。我们提出了反馈注意力记忆(FAM),这是一种新型的Transformer架构,它利用反馈回路使网络能够处理自己的潜在表示。这种设计促进了Transformer中工作记忆的出现,使其能够处理无限长的序列。TransformerFAM不需要额外的权重,可以与预训练的模型无缝集成。我们的实验表明,TransformerFAM显著提高了Transformer在各种模型大小(1B、8B和24B)的长上下文任务上的性能。这些结果展示了增强大型语言模型(LLM)处理无限长度序列的潜力。
1 引言
2 TransformerFAM
3 实验
4 相关工作
5 结论
在电影《记忆碎片》(2000)中,主角与顺行性失忆症作斗争,这意味着他无法记住过去10分钟内发生的任何事情,但他的长期记忆是完整的,他必须在身体上纹身重要信息来记住它。这类似于大语言模型(LLMs)的现状。LLM能够记住整个互联网,这要归功于缩放定律,该定律允许它们以大权重(长期记忆)存储大量信息。然而,他们的短期记忆受到注意力窗口的限制。因此,复杂的提示工程对于帮助他们回忆重要细节变得必要。我们提出了一种名为TransformerFAM的新架构,可以修复LLM的顺行性遗忘症。
机器学习的快速发展令人惊讶,但有两个关键问题我们
订阅专栏 解锁全文
3351

被折叠的 条评论
为什么被折叠?



