本文是LLM系列文章,针对《Beyond Scaling Laws: Understanding Transformer Performance with Associative Memory》的翻译。
摘要
增大Transformer模型的大小并不总是能够提高性能。这种现象不能用经验缩放定律来解释。此外,当模型记忆训练样本时,泛化能力得到提高。我们提出了一个理论框架,揭示了基于Transformer的语言模型的记忆过程和性能动态。我们使用Hopfield网络对具有关联存储器的Transformer的行为进行建模,使得每个Transformer块有效地进行近似最近邻居搜索。基于此,我们设计了一个类似于现代连续Hopfield网络中的能量函数,它为注意力机制提供了深刻的解释。使用优化最小化技术,我们构建了一个全局能量函数,该函数捕获了Transformer的分层架构。在特定的条件下,我们证明了最小可实现的交叉熵损失由一个近似等于1的常数从下面界定。我们通过在各种数据大小上使用GPT-2进行实验,以及在2M个token的数据集上训练朴素Transformer,来证实我们的理论结果。
1 引言
2 相关工作
3 模型
4 新的能量函数
5 交叉熵损失
6 实验结果
7 结论
我们用联想记忆对基于Transformer的网络进行建模,并研究了与模型和数据大小相关的交叉熵损失。通过在方程5中提出一个新的能量函数,该函数不依赖于现代连续Hopfield网络中常见的附加正则化项,我们证明了所提出的能量函数对应于在训练
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



