Estimating Contamination via Perplexity: Quantifying Memorisation in Language Model Evaluation
https://arxiv.org/abs/2309.10677
通过困惑度估计污染:量化语言模型评估中的记忆
文章目录
摘要
随着大型语言模型的大规模训练语料库经常无意中包含基准样本,模型评估中的数据污染变得越来越普遍。因此,污染分析已成为可靠模型评估不可或缺的一部分。然而,现有的污染分析方法需要访问完整的训练数据,这些数据对最近的模型通常是保密的。这阻止了社区对这些模型进行严格的审计,并对其能力进行准确的评估。在本文中,我们提出了一种新颖的方法,无需访问完整的训练集即可量化污染,通过困惑度来衡量污染的程度。我们的分析提供了近期基础模型在流行的阅读理解、摘要基准测试中显著记忆的证据,而多项选择似乎污染较少。
1 引言
近年来,在从网络抓取的大量文本语料库上预训练的语言模型取得了显著进展。然而,许多广泛使用的评估基准也是从类似的网络来源构建的,导致了一个令人担忧的问题,即测试集中的示例无意中包含在训练数据中。污染使模型能够通过记忆测试数据而不是展示真正的泛化来“作弊”(Marie,2023),这创造了进步的幻觉,扭曲了模型比较,并破坏了基准的效用(Jacovi等人,2023)。
最近的语言模型评估通常涉及对使用的基准进行详细的污染分析(Brown等人,2020;Chowdhery等人,2022;Touvron等人,2023a;OpenAI,2023)。这些污染报告通常包含两个步骤:1)通过测量测试集和训练数据之间的n-gram重叠来量化潜在的测试污染,2)比较模型在清洁与污染子集上的性能。这一程序对于确定评估程序的有效性和基准在评估模型性能方面的可信度至关重要。

订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



