Beyond Scaling Laws: Understanding Transformer Performance with Associative Memory

本文是LLM系列文章,针对《Beyond Scaling Laws: Understanding Transformer Performance with Associative Memory》的翻译。

超越缩放定律:用联想记忆理解Transformer性能

摘要

增大Transformer模型的大小并不总是能够提高性能。这种现象不能用经验缩放定律来解释。此外,当模型记忆训练样本时,泛化能力得到提高。我们提出了一个理论框架,揭示了基于Transformer的语言模型的记忆过程和性能动态。我们使用Hopfield网络对具有关联存储器的Transformer的行为进行建模,使得每个Transformer块有效地进行近似最近邻居搜索。基于此,我们设计了一个类似于现代连续Hopfield网络中的能量函数,它为注意力机制提供了深刻的解释。使用优化最小化技术,我们构建了一个全局能量函数,该函数捕获了Transformer的分层架构。在特定的条件下,我们证明了最小可实现的交叉熵损失由一个近似等于1的常数从下面界定。我们通过在各种数据大小上使用GPT-2进行实验,以及在2M个token的数据集上训练朴素Transformer,来证实我们的理论结果。

1 引言

2 相关工作

3 模型

4 新的能量函数

5 交叉熵损失

6 实验结果

7 结论

我们用联想记忆对基于Transformer的网络进行建模,并研究了与模型和数据大小相关的交叉熵损失。通过在方程5中提出一个新的能量函数,该函数不依赖于现代连续Hopfield网络中常见的附加正则化项,我们证明了所提出的能量函数对应于在训练

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值