TransformerFAM: Feedback attention is working memory

最新推荐文章于 2025-12-12 18:01:47 发布

UnknownBody

最新推荐文章于 2025-12-12 18:01:47 发布

阅读量98

点赞数

CC 4.0 BY-SA版权

分类专栏： LLM Daily 文章标签：语言模型人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/141504805

LLM Daily 专栏收录该内容

1732 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

本文是LLM系列文章，针对《TransformerFAM: Feedback attention is working memory》的翻译。

TransformerFAM：反馈注意力是工作记忆

摘要
1 引言
2 TransformerFAM
3 实验
4 相关工作
5 结论

摘要

虽然Transformer彻底改变了深度学习，但它们的二次注意力复杂性阻碍了它们处理无限长输入的能力。我们提出了反馈注意力记忆（FAM），这是一种新型的Transformer架构，它利用反馈回路使网络能够处理自己的潜在表示。这种设计促进了Transformer中工作记忆的出现，使其能够处理无限长的序列。TransformerFAM不需要额外的权重，可以与预训练的模型无缝集成。我们的实验表明，TransformerFAM显著提高了Transformer在各种模型大小（1B、8B和24B）的长上下文任务上的性能。这些结果展示了增强大型语言模型（LLM）处理无限长度序列的潜力。

1 引言

2 TransformerFAM

3 实验

4 相关工作

5 结论

在电影《记忆碎片》（2000）中，主角与顺行性失忆症作斗争，这意味着他无法记住过去10分钟内发生的任何事情，但他的长期记忆是完整的，他必须在身体上纹身重要信息来记住它。这类似于大语言模型（LLMs）的现状。LLM能够记住整个互联网，这要归功于缩放定律，该定律允许它们以大权重（长期记忆）存储大量信息。然而，他们的短期记忆受到注意力窗口的限制。因此，复杂的提示工程对于帮助他们回忆重要细节变得必要。我们提出了一种名为TransformerFAM的新架构，可以修复LLM的顺行性遗忘症。
机器学习的快速发展令人惊讶，但有两个关键问题我们

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。