Rethinking Benchmark and Contamination for Language Models with Rephrased Samples
https://arxiv.org/pdf/2311.04850
文章目录
摘要
论文主要讨论了大规模语言模型(LLM)在训练时可能“污染”基准数据的问题。污染是指模型在训练数据中见过了测试题目或其改写版本,导致测试结果不能真实反映模型的能力。现有的去污染方法(例如基于字符串匹配的n-gram方法)不够精准,简单的改写或翻译测试数据就能绕过这些方法。
研究发现:
- 通过对测试数据进行改写训练,13B的模型可以在MMLU等基准测试中取得非常高的分数(接近GPT-4的水平),但这些高分可能是由于训练集和测试集的重叠。
- 在模型训练数据中,如RedPajama-Data和StarCoder-Data,有大量测试数据的重叠未被发现(8%-18%的重叠率)。
- 甚至生成的合成数据也可能无意间包含测试数据的变体,增加了污染的风险。
论文提出了一种基于LLM的新方法,能更有效地检测这些污染,并建议社区开发新的“一次性考试”来更公平地评估模型。
Introduction
随着大语言模型的快速发展,如何公平、真实地评估其能力变得越来越困难。虽然研究者们创建了许多基准测试(如MML