Confounders in Instance Variation for the Analysis of Data Contamination
论文对在加法任务中通过生成不同示例和问题重述来分析和测量大语言模型(LLMs)测试污染的影响,揭示了这些干预如何影响实例难度及其对性能评估的影响。
混淆因素在实例变异中对于分析数据污染的影响
摘要
测试污染是对大型语言模型(LLMs)进行评估时的一个严重问题,因为它会导致它们的表现被过高估计,并且基准测试迅速饱和,甚至在实际能力实现之前就达到了。解决这个问题的一个策略是(对抗性)生成变异,通过包含不同的示例和不同的问题重述来实现。然而,这两种干预措施可能导致实例变得更加困难(通过部分移除污染而累积预期性能损失),但也可能导致实例变得更容易(取消预期性能损失),这将使污染无法被检测到。从实例难度的角度理解这两种现象对于确定和测量污染至关重要。在本文中,我们对使用微调后的LLAMA-2模型进行的加法任务进行了这两种干预措施的全面分析。