本文是LLM系列的文章,针对《Birth of a Transformer: A Memory Viewpoint》的翻译。
摘要
基于transformer的大型语言模型在经验上取得了巨大的成功。然而,随着它们的部署越来越广泛,人们越来越需要更好地了解它们的内部机制,以使它们更加可靠。这些模型似乎存储了来自其训练数据的大量知识,并快速适应在其上下文或提示中提供的新信息。我们研究了transformer如何通过考虑一个合成设置来平衡这两种类型的知识,其中token是从全局或上下文特定的二元分布生成的。通过对简化的两层Transformer上的训练过程进行仔细的实证分析,我们说明了全局bigram的快速学习和上下文bigram的“感应头”机制的缓慢发展。我们强调了权重矩阵作为联想记忆的作用,提供了关于梯度如何在训练中实现其学习的理论见解,并研究了数据分布特性的作用。
1 引言
2 背景
3 合成设置
4 关联记忆的角度
5 实证研究
6 学习动态性的理论见解
7 讨论
在本文中,我们研究了Transformer如何在上下文学习能力中发展的问题,使用了一个简化的设置,可以细粒度地理解模型及其训练动态。虽然我们的模型已经捕捉到了我们所考虑的bigram任务中的丰富现象,但可能需要更精
本文深入探讨Transformer模型的工作原理,通过一个合成设置分析其如何平衡存储训练数据的知识与适应新信息的能力。研究发现权重矩阵在学习过程中起到联想记忆作用,揭示了梯度动态和数据分布特性对学习的影响。
已下架不支持订阅
2万+

被折叠的 条评论
为什么被折叠?



