论文阅读:arXiv-2023.Rethinking Benchmark and Contamination for Language Models with Rephrased Samples

Rethinking Benchmark and Contamination for Language Models with Rephrased Samples

https://arxiv.org/pdf/2311.04850

文章目录


摘要

论文主要讨论了大规模语言模型(LLM)在训练时可能“污染”基准数据的问题。污染是指模型在训练数据中见过了测试题目或其改写版本,导致测试结果不能真实反映模型的能力。现有的去污染方法(例如基于字符串匹配的n-gram方法)不够精准,简单的改写或翻译测试数据就能绕过这些方法。

研究发现:

  1. 通过对测试数据进行改写训练,13B的模型可以在MMLU等基准测试中取得非常高的分数(接近GPT-4的水平),但这些高分可能是由于训练集和测试集的重叠。
  2. 在模型训练数据中,如RedPajama-Data和StarCoder-Data,有大量测试数据的重叠未被发现(8%-18%的重叠率)。
  3. 甚至生成的合成数据也可能无意间包含测试数据的变体,增加了污染的风险。

论文提出了一种基于LLM的新方法,能更有效地检测这些污染,并建议社区开发新的“一次性考试”来更公平地评估模型。


Introduction

随着大语言模型的快速发展,如何公平、真实地评估其能力变得越来越困难。虽然研究者们创建了许多基准测试(如MML

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

CSPhD-winston-杨帆

给我饭钱

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值