本文是LLM系列文章,针对《ROME : Memorization Insights from Text, Probability and Hidden State in Large Language Models》的翻译。
摘要
探究大型语言模型的记忆具有重要意义。先前的工作已经建立了量化记忆的指标,探索了各种影响因素,如数据重复、模型大小和提示长度,并通过将模型输出与训练语料库进行比较来评估记忆。然而,训练语料库规模庞大,预处理耗时。为了在不访问训练数据的情况下探索记忆,我们提出了一种新的方法,称为ROME,其中通过比较记忆和非记忆的差异来探索记忆。具体来说,模型首先将所选样本分为记忆组和非记忆组,然后从文本、概率和隐藏状态的角度对两组样本的演示进行比较。实验结果表明,单词长度、词性、词频、均值和方差等因素存在差异。
1 引言
2 相关工作
3 方法
4 实验分析
5 结论
我们提出了ROME来探索LLM的记忆,重点是通过构建记忆组和非记忆组进行比较分析,而不是直接访问训练数据。它利用IDIMIM和CelebrityParent数据集,检查文本、概率和隐藏状态,并提供实证结果和问题。值得注意的是,记忆探针的结果可能会受到模型、提示、数据集和见解的影响,这些发现特别适用于我们的实验环境。由于解释困难,我们的工作缺乏全面深入的分析,然而,我们的主要贡献是为探索记忆提供新的见解,并为未来的
本文介绍了一种新方法ROME,用于在不访问训练数据的情况下研究大型语言模型的记忆。通过对记忆组和非记忆组的文本、概率和隐藏状态进行比较,揭示了单词长度、词性、词频等因素对模型记忆的影响。该方法为理解LLM的记忆提供了新的视角,但其解释性和全面性仍有待进一步研究。
订阅专栏 解锁全文
828

被折叠的 条评论
为什么被折叠?



