论文翻译:ACL Workshop 2024.Mehrbakhsh B.Confounders in Instance Variation for the Analysis of

Confounders in Instance Variation for the Analysis of Data Contamination

论文对在加法任务中通过生成不同示例和问题重述来分析和测量大语言模型(LLMs)测试污染的影响,揭示了这些干预如何影响实例难度及其对性能评估的影响。

混淆因素在实例变异中对于分析数据污染的影响

摘要

测试污染是对大型语言模型(LLMs)进行评估时的一个严重问题,因为它会导致它们的表现被过高估计,并且基准测试迅速饱和,甚至在实际能力实现之前就达到了。解决这个问题的一个策略是(对抗性)生成变异,通过包含不同的示例和不同的问题重述来实现。然而,这两种干预措施可能导致实例变得更加困难(通过部分移除污染而累积预期性能损失),但也可能导致实例变得更容易(取消预期性能损失),这将使污染无法被检测到。从实例难度的角度理解这两种现象对于确定和测量污染至关重要。在本文中,我们对使用微调后的LLAMA-2模型进行的加法任务进行了这两种干预措施的全面分析。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

CSPhD-winston-杨帆

给我饭钱

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值