
LLMs-数据污染
文章平均质量分 93
CSPhD-winston-杨帆
合作:winstonyf@qq.com 暨大博士生 川师大研究生 前成都东软教师
展开
-
论文翻译:2024-findings-naacl.CLEAN–EVAL: Clean Evaluation on Contaminated Large Language Models
我们目前正处于各种大型语言模型(LLMs)之间激烈竞争的时代,它们不断推动基准性能的极限。然而,由于潜在的数据污染问题,真正评估这些LLMs的能力已成为一个具有挑战性和关键性的问题。在本文中,我们提出了一种新颖且有价值的方法,Clean-Eval,它减轻了数据污染问题,并对LLMs进行了更清洁的评估。Clean-Eval使用基于神经网络的模型对受污染的数据进行释义和回译,生成具有相同含义但不同表面形式的候选集。然后使用语义检测器过滤这些生成的低质量样本,以缩小这个候选集。原创 2024-12-30 21:02:52 · 850 阅读 · 0 评论 -
论文翻译:arxiv-2024.Towards Data Contamination Detection for Modern Large Language Models: Limitations,
随着大型语言模型取得越来越令人印象深刻的成果,人们开始质疑这种性能是否来自泛化能力还是仅仅是数据记忆。因此,提出了许多数据污染检测方法。然而,这些方法通常使用传统基准测试和早期大型语言模型(LLMs)进行验证,留下了对它们在评估最先进的LLMs在更具挑战性的基准测试污染方面的有效性的不确定性。为了填补这一空白,并提供对SOTA LLM污染状态和检测方法鲁棒性的双重调查,我们评估了五种污染检测方法,使用四种最先进的LLMs在现代LLM评估中常用的八个具有挑战性的数据集上。原创 2024-12-03 21:11:21 · 1009 阅读 · 0 评论 -
论文翻译:ACL Finding 2024.CLEAN–EVAL: Clean Evaluation on Contaminated Large Language Models
我们目前正处于各种大型语言模型(LLMs)之间激烈竞争的时代,它们不断推动基准性能的边界。然而,由于潜在的数据污染,真正评估这些LLMs的能力已成为一个具有挑战性和关键性的问题。在本文中,我们提出了一种新颖且有价值的方法,Clean-Eval,它减轻了数据污染的问题,并对LLMs进行了更清洁的评估。Clean-Eval采用基于神经网络的模型对污染数据进行释义和回译,生成具有相同含义但不同表面形式的候选集。然后使用语义检测器过滤这些生成的低质量样本,以缩小这个候选集。原创 2024-11-28 09:50:11 · 724 阅读 · 0 评论 -
论文翻译:arxiv-2024.Lizhou Fan.NPHardEval: Dynamic Benchmark on Reasoning Ability of Large Language
复杂推理能力是当前大型语言模型(LLMs)最重要的特征之一,它在复杂决策任务中也发挥着不可或缺的作用。因此,对LLMs推理能力的调查至关重要:已经建立了许多基准来评估LLMs的推理能力。然而,当前的基准在提供对LLMs能够实现的推理能力的全面严格评估方面存在不足。它们也容易受到过拟合的风险,因为这些基准是公开可访问和静态的,允许模型可能针对特定的基准指标量身定制它们的响应,从而夸大它们的表现。为了解决这些限制,我们的研究引入了一个新的基准,名为NPHardEval。原创 2024-11-23 16:02:30 · 771 阅读 · 0 评论 -
论文翻译:NeurIPS-2024.Zhehao Zhang.DARG: Dynamic Evaluation of Large Language Models via Adaptive
当前通过静态基准测试评估大型语言模型(LLMs)的范式存在显著局限性,例如易受数据污染影响,以及缺乏适应LLMs不断演变能力的灵活性。因此,迫切需要能够适应并生成具有控制复杂性的评估数据的评估方法。在这项工作中,我们引入了通过自适应推理图演化动态评估LLMs(DARG),以动态扩展当前基准测试,控制复杂性和多样性。具体来说,我们首先提取当前基准测试中数据点的推理图,然后扰动这些推理图以生成新的测试数据。这些新生成的测试样本可以在保持与原始基准测试类似的语言多样性的同时,具有不同级别的复杂性。原创 2024-11-23 01:05:04 · 945 阅读 · 0 评论 -
论文翻译:NAACL-2024.Fangyu Lei.S3Eval: A Synthetic, Scalable, Systematic Evaluation Suite for Large
大型语言模型(LLMs)的快速发展在模型能力上取得了巨大进步,如长文本理解和推理。然而,随着LLMs能够处理更长的上下文,评估它们是否获得了某些能力变得更加具有挑战性,因为它们能够处理的文本长度(例如,200K个标记)远远超过了人类在合理时间内可靠评估的范围。在本文中,我们提出了使用复杂的合成任务作为代理评估方法,并介绍了S3EVAL,一个针对LLMs评估的综合、可扩展、系统化的评估套件。原创 2024-11-21 11:18:28 · 912 阅读 · 0 评论 -
论文翻译:2024-NeurIPS.Pratyush Maini.LLM Dataset Inference Did you train on my dataset?
大型语言模型(LLM)在现实世界的广泛使用伴随着针对公司的训练模型使用未经许可的互联网数据的版权案件的增加。最近的研究提出了识别个别文本序列是否属于模型训练数据的方法,即所谓的成员资格推断攻击(MIAs)。我们展示了这些MIAs的成功似乎被选择的非成员(未用于训练的文本序列)与成员(例如,时间上偏移的近期维基百科文章与用于训练模型的文章)属于不同分布所混淆。这种分布偏移使得成员资格推断看起来是成功的。原创 2024-11-15 20:16:29 · 641 阅读 · 0 评论 -
论文翻译: arxiv-2024.Avi Schwarzschild.Rethinking LLM Memorization through the Lens of Adversarial Compr
在网络规模数据集上训练的大型语言模型(LLMs)引发了关于允许数据使用的实质性关注。一个主要问题是这些模型是否“记忆”了它们所有的训练数据,或者它们是否以更类似于人类学习并综合信息的方式来整合许多数据源。答案在很大程度上取决于我们如何定义记忆。在这项工作中,我们提出了对抗性压缩比(ACR)作为评估LLMs记忆中的一个指标。如果训练数据中的一个给定字符串可以通过比字符串本身短得多的提示来引发,那么它就被认为是记忆的——换句话说,如果这些字符串可以通过计算较少的令牌的对抗性提示与模型“压缩”。原创 2024-11-14 09:28:13 · 665 阅读 · 0 评论 -
论文翻译:ICLR 2024.DETECTING PRETRAINING DATA FROM LARGE LANGUAGE MODELS
尽管大型语言模型(LLMs)被广泛部署,用于训练它们的数据很少被公开。考虑到这些数据的惊人规模,高达数万亿个标记,几乎可以肯定它包含了潜在问题文本,如版权材料、个人身份信息以及广泛报道的参考基准的测试数据。然而,我们目前没有办法知道哪些这类数据被包含在内,或者它们的比例是多少。在本文中,我们研究了预训练数据检测问题:给定一段文本和对一个LLM的黑盒访问,而不知道预训练数据,我们能否确定模型是否在提供的文本上进行了训练?原创 2024-10-30 19:30:46 · 1019 阅读 · 0 评论 -
论文翻译:arxiv-2024.Jasper Dekoninck.Evading Data Contamination Detection for Language Models is (too) E
大型语言模型(LLMs)非常普遍,它们在基准测试中的表现经常引导用户对一个模型的偏好超过另一个模型。然而,这些模型训练所使用的大量数据可能会无意中导致与公共基准测试的数据污染,从而破坏性能测量。尽管最近开发的数据污染检测方法试图解决这个问题,但它们忽视了恶意模型提供者故意污染以逃避检测的可能性。我们认为这种设置至关重要,因为它对公共基准测试用于LLM评估的可靠性提出了质疑。为了更严格地研究这个问题,我们提出了对模型提供者和数据污染检测方法的分类。原创 2024-10-20 09:27:01 · 1128 阅读 · 0 评论 -
论文翻译:arxiv-2024.Dillon Bowen.Scaling Laws for Data Poisoning in LLMs
Scaling Laws for Data Poisoning in LLMshttps://arxiv.org/pdf/2408.02946原创 2024-10-20 07:58:41 · 1091 阅读 · 0 评论 -
论文翻译:ICLR 2024.Roberts M.TO THE CUTOFF... AND BEYOND? A LONGITUDINAL PERSPECTIVE ON LLM
关于大型语言模型(LLM)的卓越能力的最新声明通常通过评估公开可用的基准测试来支持。由于LLM在互联网上广泛的数据上进行训练,这种做法引发了数据污染的担忧,即在评估中使用的样本可能有意或无意地包含在训练数据中。数据污染以臭名昭著的难以测量和减轻,即使尝试进行部分控制实验、训练数据、金丝雀字符串或嵌入相似性等方法也难以有效。在本项工作中,我们通过使用GPT模型中的自然实验——训练截止点——来观察随时间发布的基准测试,进行了首次全面的纵向分析LLM中的数据污染。原创 2024-10-19 06:56:55 · 122 阅读 · 0 评论 -
论文翻译:ACL Workshop 2024.Mehrbakhsh B.Confounders in Instance Variation for the Analysis of
测试污染是对大型语言模型(LLMs)进行评估时的一个严重问题,因为它会导致它们的表现被过高估计,并且基准测试迅速饱和,甚至在实际能力实现之前就达到了。解决这个问题的一个策略是(对抗性)生成变异,通过包含不同的示例和不同的问题重述来实现。然而,这两种干预措施可能导致实例变得更加困难(通过部分移除污染而累积预期性能损失),但也可能导致实例变得更容易(取消预期性能损失),这将使污染无法被检测到。从实例难度的角度理解这两种现象对于确定和测量污染至关重要。原创 2024-10-15 06:39:51 · 116 阅读 · 0 评论 -
论文复现:Training on the Benchmark Is Not All You Need
这篇论文还是非常通俗易懂的,就是交换题目的选项顺序,来计算logprobs,查看是否有异常值。原创 2024-10-08 16:49:47 · 662 阅读 · 0 评论 -
顶会论文复现:PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS
这篇论文的测试数据污染的方法也是很扯淡的,论文结尾也说了,作者自己的方法得先证明数据集内的题目之间的顺序打乱是否有影响,这不就是扯淡么,训练期间,有个策略就是要每次输入训练时,打乱顺序,训练的时候都打乱了,作者测试期间打乱测的出来个屁呀。这也能发顶会,太离谱了。还有检测时用的logprobs这个值,这个值的低和高不代表污染程度,整个论文让我感到匪夷所思。原创 2024-10-07 09:58:21 · 999 阅读 · 0 评论 -
顶会论文复现 time-travel-in-llms, TIME TRAVEL IN LLMS: TRACING DATA CONTAMINATION IN LARGE LANGUAGE MODELS
pip install dashscopeexport DASHSCOPE_API_KEY=“sk-91b8d4bd58c14888975968c8ecb64159”git clone https://github.com/google-research/bleurt.git dependencies/bleurt_scorercd dependencies/bleurt_scorerpip install .pip install evaluate==0.3.0原创 2024-10-03 21:14:41 · 305 阅读 · 0 评论 -
论文翻译:arxiv-2024.Mathieu Ravaut.How Much are Large Language Models Contaminated? A Comprehensive
随着近年来大型语言模型(LLMs)的兴起,涌现出了大量新的机会,但也带来了新的挑战,其中污染问题迅速变得至关重要。在人工智能(AI)的商业应用和筹资中,已经达到了一个规模,即在流行的问答基准测试中获得的几个百分点的提高可能转化为数千万甚至数亿美元,这给模型的完整性带来了巨大的压力。与此同时,追踪LLMs所见过的数据变得越来越困难;对于像GPT-4和Claude-3这样的闭源模型来说,如果不披露任何关于训练集的信息,几乎是不可能的。原创 2024-09-26 15:47:25 · 133 阅读 · 0 评论 -
论文翻译:EMNLP demo-2024..FreeEval: A Modular Framework for Trustworthy and Efficient Evaluation of
大型语言模型(LLM)评估方法和数据集的快速发展带来了巨大的挑战:在确保可靠性、可重复性和效率的同时,成本有效地整合最先进的评估技术。目前,缺乏一个统一且可适应的框架,能够无缝整合各种评估方法。此外,由于潜在的数据污染,评估结果的可靠性常常受到质疑,而在面对与LLM推理相关的巨额成本时,评估效率通常被忽视。为了应对这些挑战,我们介绍了FreeEval,这是一个模块化且可扩展的框架,旨在实现LLMs的可靠和高效自动评估。原创 2024-09-24 20:39:29 · 146 阅读 · 0 评论 -
论文翻译:arxiv-2024.Xiang Li.TreeEval: Benchmark-Free Evaluation of Large Language Models through Tree
最近,为了评估大型语言模型(LLMs)的性能,无论是通过计算整体分数还是使用另一个LLM作为评委,都建立了许多新的基准。然而,这些方法由于基准的公开访问和不灵活的评估过程而受到数据泄露的困扰。为了解决这个问题,我们介绍了TreeEval,这是一种无需基准的LLMs评估方法,让一个高性能的LLM主持一个不可复制的评估会议,基本上避免了数据泄露。此外,这个LLM作为考官,根据树规划策略提出一系列问题,考虑当前评估状态来决定下一个问题生成,并确保评估过程的完整性和效率。原创 2024-09-24 20:24:32 · 126 阅读 · 0 评论 -
论文翻译:NeurIPS-2024.Jiahao Ying.Automating Dataset Updates Towards Reliable and Timely Evaluation of
大型语言模型(LLMs)在各种自然语言基准测试中取得了令人印象深刻的性能,这促使我们不断为更大的LLMs策划更具挑战性的数据集,这是一个成本高昂且耗时的过程。在本文中,我们提出自动化数据集更新,并提供系统性分析,以评估其在处理基准泄露问题、难度控制和稳定性方面的有效性。因此,一旦当前基准被掌握或泄露,我们可以及时更新它,以进行可靠和及时的评估。有两种更新策略:1)模仿策略,基于原始数据生成类似的样本,保留风格和上下文的本质;2)扩展策略,通过适应布鲁姆教育目标分类法,在不同的认知水平上进一步扩展现有样本。原创 2024-09-24 18:37:53 · 159 阅读 · 0 评论 -
论文翻译:ICML-2024.Kaijie Zhu.DyVal 2: Dynamic Evaluation of Large Language Models by Meta Probing
大型语言模型(LLMs)的评估由于数据污染问题引起了社区的极大关注。现有的工作设计了使用特定任务的明确算法的评估协议,这些协议不易扩展到多样化的场景。此外,当前的评估基准只能提供整体基准结果,不能支持对LLMs能力的细粒度和多方面的分析。在本文中,我们提出了元探测代理(MPA),这是一种受心理测量学启发的通用动态评估协议,用于评估LLMs。MPA设计了探测和判断代理,以自动将原始评估问题根据心理测量学理论转换为新的评估问题,涉及三种基本认知能力:语言理解、问题解决和领域知识。原创 2024-09-24 14:50:07 · 162 阅读 · 0 评论 -
论文翻译:arxiv-2024.Kaijie Zhu.DYVAL: DYNAMIC EVALUATION OF LARGE LANGUAGE MODELS FOR REASONING TASKS
大型语言模型(LLMs)在各种评估基准测试中取得了显著的性能。然而,人们担心它们庞大的训练语料库中可能存在数据污染。此外,当前基准测试的静态性质和固定复杂度可能无法充分衡量LLMs不断进步的能力。在本文中,我们介绍了DYVAL,一种用于动态评估LLMs的通用且灵活的协议。基于我们的框架,我们构建了基于图的DYVAL,利用有向无环图的结构优势来动态生成具有可控复杂度的评估样本。DYVAL在包括数学、逻辑推理和算法问题在内的推理任务上生成了具有挑战性的评估集。原创 2024-09-24 14:41:19 · 146 阅读 · 0 评论 -
论文翻译:arxiv-2024.Chunqiu Steven Xia.Top Leaderboard Ranking = Top Coding Proficiency, Always?
LLM(大型语言模型)已成为代码生成任务的首选,特别是在代码生成方面的训练、开发和使用呈指数级增长。为了评估LLM在代码方面的能力,学术界和工业界的从业者都依赖于流行的手工制作的基准测试。然而,以前的基准测试只包含非常有限的问题集,无论是在数量上还是种类上。此外,由于流行和年龄的原因,许多基准测试容易出现数据泄露,示例解决方案可以轻易在网络和训练数据中找到。这些限制不可避免地让我们提出疑问:现有基准测试的排行榜性能是否足够可靠和全面,以衡量LLM的程序合成能力?为了解决这个问题,原创 2024-09-24 13:02:33 · 119 阅读 · 0 评论 -
论文翻译:arxiv-2024.Naman Jain.LiveCodeBench: Holistic and Contamination Free Evaluation of Large
应用于代码相关应用的大型语言模型(LLMs)已经成为一个突出的领域,吸引了学术界和工业界的极大兴趣。然而,随着新的和改进的LLMs的发展,现有的评估基准(例如,HumanEval、MBPP)不再足以评估它们的能力。在这项工作中,我们提出了LiveCodeBench,这是一个全面且无污染的LLMs代码评估方法,它从三个竞技平台(即LeetCode、AtCoder和CodeForces)的比赛活动中随时间收集新问题。原创 2024-09-24 11:16:07 · 198 阅读 · 0 评论 -
论文翻译:AAAI-2024.Yucheng Li.LatestEval: Addressing Data Contamination in Language Model Evaluation
随着在超大规模自动抓取语料库上预训练的语言模型的出现,评估中的数据污染问题日益严重。这一问题导致了对模型能力和泛化能力的准确评估面临重大挑战。本文提出了LatestEval,一种自动化方法,利用最新文本创建无污染的阅读理解评估。LatestEval通过仅使用在最近时间窗口内发布的文本来避免数据污染,确保与预训练语言模型的训练语料库没有重叠。我们开发了LatestEval自动化流程,1) 收集最新文本;2) 识别关键信息;3) 构建针对这些信息的问题,同时从上下文中移除现有答案。原创 2024-09-24 11:01:39 · 245 阅读 · 0 评论 -
论文翻译:NeurIPS-2021-CCF-B.Zhiyi M.Dynaboard: An Evaluation-As-A-Service Platform for Holistic
我们介绍了Dynaboard,这是一个评估即服务平台框架,用于托管基准测试并进行全面的模型比较,与Dynabench平台集成。我们的平台直接评估NLP模型,而不是依赖于自行报告的指标或单一数据集上的预测。在这种范式下,模型被提交到云端进行评估,规避了在NLP基准测试中经常遇到的可重复性、可访问性和向后兼容性问题。这允许用户实时与上传的模型互动以评估其质量,并允许收集额外的指标,如内存使用、吞吐量和鲁棒性,这些指标尽管对实践者很重要,但传统上一直未出现在排行榜上。原创 2024-09-24 10:45:05 · 103 阅读 · 0 评论 -
论文翻译:EMNLP-2023.CCF-A.Alon Jacovi.Stop Uploading Test Data in Plain Text: Practical Strategies for
随着在大型自动抓取的语料库上预训练的模型的兴起,数据污染已经成为一个普遍且具有挑战性的问题。对于封闭模型来说,训练数据变成了商业机密,即使是开放模型,检测污染也并非易事。诸如带有隐藏答案的排行榜,或者使用保证未被见过的测试数据这类策略,成本高昂,并且随着时间的推移变得脆弱。假设所有相关方都重视干净的测试数据,并愿意合作以减轻数据污染,我们可以做什么?我们提出了三种可以产生影响的策略:(1)公开的测试数据应使用公钥加密,并授权禁止衍生分发;(2)原创 2024-09-24 10:27:34 · 488 阅读 · 0 评论 -
论文翻译:arxiv-2024.Tanmay Rajore.TRUCE: Private Benchmarking to Prevent Contamination and Improve
基准测试因其速度、可复制性和低成本而成为评估大型语言模型(LLM)的实际标准。然而,最近的研究指出,目前可用的大多数开源基准测试数据集已经被污染或泄露到LLM中,这意味着LLM在预训练和/或微调期间可以访问测试数据。这引发了对迄今为止进行的基准测试研究的有效性以及使用基准测试进行评估的未来严重担忧。为了解决这个问题,我们提出了私密基准测试,这是一种解决方案,其中测试数据集是私密的,并且模型在不向模型透露测试数据的情况下进行评估。原创 2024-09-24 09:09:01 · 82 阅读 · 0 评论 -
论文翻译:arxiv-2023.Manley Roberts.Data Contamination Through the Lens of Time
关于大型语言模型(LLMs)令人印象深刻的能力的最近声明通常是通过评估公开可用的基准测试来支持的。由于LLMs在互联网的广泛领域上进行训练,这种做法引发了数据污染的担忧,即在训练数据中明确或隐式包含的示例上进行评估。数据污染出了名的难以衡量和缓解,即使有部分尝试,如对训练数据进行控制实验、使用金丝雀字符串或嵌入相似性,也是如此。在这项工作中,我们通过使用GPT模型训练截止日期的自然实验,首次对LLMs中的数据污染进行了全面的纵向分析,以观察随时间发布的基准测试。原创 2024-09-23 15:25:33 · 110 阅读 · 0 评论 -
论文翻译:ACL-2024.Yiming Huang.Competition-Level Problems are Effective LLM Evaluators
大型语言模型(LLMs)展示了令人印象深刻的推理能力,然而,关于这些能力以及最近潜在的数据污染问题的争论仍在持续。本文旨在评估LLMs的推理能力,特别是在解决Codeforces中最近的竞赛级编程问题方面,这些问题是由专家精心设计且独特的,需要深入理解和强大的推理技能。我们首先对GPT-4在这项任务上的零样本(zero-shot)表现进行全面评估,考虑了问题发布时间、难度和遇到的错误类型等多个方面。令人惊讶的是,原创 2024-09-23 14:54:36 · 125 阅读 · 0 评论 -
论文翻译:NeurIPS-2023.Lee A.Platypus: Quick, Cheap, and Powerful Refinement of LLMs
我们介绍了鸭嘴兽(Platypus),这是一个经过微调和合并的大型语言模型(LLM)系列,它在撰写本文时在HuggingFace的开放LLM排行榜上取得了最强性能并名列第一。在这项工作中,我们描述了(1)我们策划的数据集Open-Platypus,这是其他开放数据集的一个子集,我们将其公开发布(2)我们微调和合并LoRA模块的过程,以保留预训练LLMs的强大先验,同时将特定领域知识带到表面==(3)我们在检查训练数据中的测试数据泄露和污染方面的努力==,这可以为未来研究提供信息。原创 2024-09-23 13:23:12 · 195 阅读 · 0 评论 -
论文翻译:EMNLP-2023.CCF-B.Kent K. Chang.Speak, Memory: An Archaeology of Books Known to ChatGPT/GPT-4
在这项工作中,我们进行了数据考古学研究,通过使用名称填空成员推断查询来推断ChatGPT和GPT-4所知的书籍。我们发现,OpenAI模型已经记住了大量受版权保护的材料,记忆的程度与这些书籍的段落在网络出现的频率有关。这些模型对未知书籍集的记忆能力,使得文化分析的测量有效性评估变得复杂,因为它们污染了测试数据;我们表明,对于下游任务,模型在记忆书籍上的表现远胜于非记忆书籍。我们认为,这支持了开放模型的理由,即其训练数据是已知的。原创 2024-09-23 11:57:27 · 155 阅读 · 0 评论 -
论文翻译:arxiv-2024.Yucheng L.An Open-Source Data Contamination Report for Large Language Models
随着大型语言模型的日益普及,模型评估中的数据污染问题变得越来越普遍。它允许模型通过记忆而非展示真正的能力来“作弊”。因此,污染分析已成为可靠模型评估的关键部分,以验证结果。然而,现有的污染分析通常由大型语言模型开发商内部进行,并且通常缺乏透明度和完整性。本文提出了一个广泛的数据污染报告,涵盖了六个流行的多项选择QA基准测试中的超过15个流行的大型语言模型。我们还介绍了一个开源流程,使社区能够在定制的数据和模型上进行污染分析。我们的实验揭示了基准测试中污染程度从1%到45%不等,并且污染程度随时间迅速增加。原创 2024-09-23 11:34:44 · 130 阅读 · 0 评论 -
论文翻译:NAACL-2024.CCF-B.Chunyuan Deng.Investigating Data Contamination in Modern Benchmarks for Large
最近的观察强调了膨胀的基准测试分数与LLMs的实际性能之间的差距,引发了对评估基准可能受到污染的担忧。这个问题对于闭源模型和某些开源模型尤其关键,这些模型缺乏训练数据透明度。在本文中,我们通过提出两种方法来研究数据污染,这些方法既适用于开源也适用于专有LLMs。我们首先引入了一个基于检索的系统,探索评估基准和预训练语料库之间的潜在重叠。我们进一步提出了一种名为测试集槽位猜测(TS-Guessing)的新调查协议,适用于开源和专有模型。这种方法包括在多项选择问题中遮蔽一个错误答案,并提示模型填补空白。原创 2024-09-22 15:04:56 · 287 阅读 · 0 评论 -
论文翻译:arxiv-2024.Ranaldi F.Investigating the Impact of Data Contamination of Large Language Models in
理解文本描述以生成代码似乎是指令遵循型大型语言模型(LLMs)在零样本场景下实现的能力。然而,存在一个严重的可能性,即这种翻译能力可能受到看到目标文本描述和相关代码的影响。这种效应被称为数据污染。在这项研究中,我们调查了数据污染对GPT3.5在文本到SQL代码生成任务中性能的影响。因此,我们引入了一种新的方法来检测GPT中的数据污染,并使用已知的Spider数据集和我们的新不熟悉的数据集Termite来检查GPT-3.5的文本到SQL性能。原创 2024-09-22 11:40:57 · 195 阅读 · 0 评论 -
论文翻译:AAAI-2024.Li C.CCF-A.Task Contamination: Language Models May Not Be Few-Shot Anymore
大型语言模型(LLM)在各种零样本和少量样本任务中表现出令人印象深刻的性能。然而,它们在零样本或少量样本设置中的成功可能会受到任务污染的影响,这是一个尚未得到充分检验的潜在限制。本文调查了LLM在零样本和少量样本性能如何随着时间的推移而变化,以及随着时间的推移而发布的数据集和LLM的变化。利用GPT-3系列模型和其他几个最近开源的LLM,控制数据集难度,我们发现在LLM训练数据创建日期之前发布的数据集的表现比在LLM训练数据创建日期之后发布的数据集要好得多。原创 2024-09-22 11:11:38 · 479 阅读 · 0 评论 -
论文翻译 ACL-2023.Justus Mattern.Membership Inference Attacks against Language Models via Neighbourhood
成员推理攻击(MIAs)旨在预测一个数据样本是否出现在机器学习模型的训练数据中,它们被广泛用于评估语言模型的隐私风险。大多数现有的攻击依赖于这样一个观察:模型倾向于为训练样本分配比非训练点更高的概率。然而,简单地将模型得分作为阈值来孤立判断,往往会导致高误报率,因为它没有考虑到样本的内在复杂性。最近的工作已经证明,通过将模型得分与在类似数据上训练的参考模型获得的得分进行比较,基于参考的攻击可以显著提高MIAs的性能。原创 2024-09-16 23:02:40 · 1249 阅读 · 0 评论 -
大模型数据污染 & 大模型动态评估
论文翻译:arxiv-2024 Estimating Contamination via Perplexity: Quantifying Memorisation in Language Model 高论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS 高论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Sur原创 2024-09-14 14:34:50 · 1120 阅读 · 0 评论 -
论文翻译:arxiv-2024 Training on the Benchmark Is Not All You Need
Training on the Benchmark Is Not All You Needhttps://arxiv.org/pdf/2409.01790标题:基准测试并非你所需的全部摘要:大型语言模型(LLMs)的成功在很大程度上依赖于在预训练阶段学习的大量预训练数据。预训练过程的不透明性和训练数据使得许多基准测试的结果变得不可靠。如果任何模型在基准测试集上进行过训练,它将严重阻碍该领域的健康发展。为了自动化和高效地测试大型语言模型的能力,众多主流基准测试采用了多项选择格式。由于多项选择选项内容的原创 2024-09-14 07:23:23 · 1302 阅读 · 0 评论 -
论文翻译:ACL Findings-2024 Generalization or Memorization: Data Contamination and Trustworthy Evaluation
关于大型语言模型(LLMs)令人印象深刻的能力的最近声明通常通过在开放获取的基准测试上进行评估来支持。考虑到LLMs训练数据的庞大规模和广泛来源,它可能明确或隐含地包括测试数据,导致LLMs更容易受到数据污染。然而,由于训练数据的不透明性、模型的黑箱访问以及合成训练数据的快速增长,检测和减轻LLMs的数据污染面临重大挑战。在本文中,我们提出了CDD,即通过LLMs的输出分布进行污染检测。CDD只需要采样文本来检测数据污染,通过识别LLM输出分布的峰值度。原创 2024-09-07 11:17:38 · 819 阅读 · 0 评论