本文是LLM系列文章,针对《Localizing Paragraph Memorization in Language Models》的翻译。
摘要
我们能定位语言模型用来记忆和背诵其训练数据的整个段落的权重和机制吗?在本文中,我们表明,当记忆分布在多个层和模型组件上时,记忆段落的梯度具有可区分的空间模式,在较低的模型层中比非记忆示例的梯度更大。此外,通过仅微调高梯度权重,可以不学习所记忆的示例。我们定位了一个低层次的注意力头,它似乎特别涉及段落记忆。这个头主要将注意力集中在语料库级unigram分布中最不常见的独特、罕见的token上。接下来,我们通过干扰标记并测量解码中引起的变化,研究前缀中的标记之间的局部记忆是如何进行的。前缀早期的几个独特标记通常会破坏整个延续。总的来说,记忆中的连续句不仅比不记忆的更难忘记,而且更容易被破坏。