本文是LLM系列文章,针对《Localizing Paragraph Memorization in Language Models》的翻译。
摘要
我们能定位语言模型用来记忆和背诵其训练数据的整个段落的权重和机制吗?在本文中,我们表明,当记忆分布在多个层和模型组件上时,记忆段落的梯度具有可区分的空间模式,在较低的模型层中比非记忆示例的梯度更大。此外,通过仅微调高梯度权重,可以不学习所记忆的示例。我们定位了一个低层次的注意力头,它似乎特别涉及段落记忆。这个头主要将注意力集中在语料库级unigram分布中最不常见的独特、罕见的token上。接下来,我们通过干扰标记并测量解码中引起的变化,研究前缀中的标记之间的局部记忆是如何进行的。前缀早期的几个独特标记通常会破坏整个延续。总的来说,记忆中的连续句不仅比不记忆的更难忘记,而且更容易被破坏。
1 引言
2 相关工作
3 识别记忆段落
4 前缀token扰动
5 本地化参数
6 存储头L1H2
7 讨论
8 结论
记忆段落(较低层次的段落较多)与非记忆段落(较高层次的段落较少)的梯度流动方式不同。虽然涉及许多模型组件,但记忆通常局限于前缀中的少数独特标记,这些标记
本文探讨了如何在语言模型中定位用于记忆训练数据段落的权重和机制。研究发现,记忆段落的梯度在较低层具有特征模式,并且可以通过扰动前缀标记来观察局部记忆。特定的底层注意力头专注于处理不常见token,而记忆中的连续句子比非记忆部分更难以遗忘且更易受干扰。
订阅专栏 解锁全文

202

被折叠的 条评论
为什么被折叠?



