CSPhD-winston-杨帆
合作:winstonyf@qq.com 暨大博士生 川师大研究生 前成都东软教师
展开
-
【翻译】Making Pre-trained Language Models Better Few-shot Learners
最近的GPT-3模型(Brown et al., 2020)仅通过利用自然语言提示和一些任务演示作为输入上下文,就取得了显著的少样本(few-shot)性能。在他们的发现的启发下,本文在更实际的场景中研究了少样本学习,使用更小的语言模型,微调在计算上是有效的。本文提出 LM-BFF——更好的少样本语言模型微调s1——一套简单和互补的技术,用于在少量标注示例上微调语言模型。实验表明,在这种低资源设置下,所提出方法的性能明显优于标准的微调过程,实现了高达30%的绝对改进,在所有任务中平均提高了11%。原创 2024-05-24 09:56:34 · 12 阅读 · 0 评论 -
论文翻译:arxiv-2024.Datasets for Large Language Models: A Comprehensive Survey
本文着手探索大型语言模型(LLM)数据集,这些数据集在LLM的显著进步中扮演着至关重要的角色。数据集作为基础架构,类似于根系,支撑并滋养着LLM的发展。因此,对这些数据集的检查成为了研究中的关键话题。为了解决目前缺乏对LLM数据集全面概述和深入分析的问题,并洞察它们的现状和未来趋势,本调查从五个角度整合并分类了LLM数据集的基本方面:(1)预训练语料库;(2)指令微调数据集;(3)偏好数据集;(4)评估数据集;(5)传统自然语言处理(NLP)数据集。本调查揭示了当前的挑战,并指出了未来研究的潜在途径。原创 2024-11-06 13:58:21 · 15 阅读 · 0 评论 -
论文翻译:arixv-2024.Does Data Contamination Detection Work (Well) for LLMs? A Survey and Evaluation on D
大型语言模型(LLMs)在各种基准测试中展现出了卓越的性能,显示出作为通用任务解决者的潜力。然而,由于LLMs通常在大量数据上进行训练,评估它们时一个重要的问题是数据污染,即训练数据与评估数据集之间的重叠会夸大性能评估。虽然已经开发了多种方法来识别数据污染,但这些方法依赖于可能在不同设置中并不普遍适用的特定假设。为了弥补这一差距,我们系统性地回顾了47篇关于数据污染检测的论文,对底层假设进行分类,并评估它们是否经过了严格的验证。我们识别并分析了八类假设,并以三个案例研究测试了其中的三个。原创 2024-12-06 09:46:25 · 11 阅读 · 0 评论 -
大模型安全相关研究
翻译:arXiv-2023 PromptRobust: Towards Evaluating the Robustness of Large Language Models on原创 2024-09-11 10:19:33 · 388 阅读 · 0 评论 -
论文翻译:2024-findings-naacl.CLEAN–EVAL: Clean Evaluation on Contaminated Large Language Models
我们目前正处于各种大型语言模型(LLMs)之间激烈竞争的时代,它们不断推动基准性能的极限。然而,由于潜在的数据污染问题,真正评估这些LLMs的能力已成为一个具有挑战性和关键性的问题。在本文中,我们提出了一种新颖且有价值的方法,Clean-Eval,它减轻了数据污染问题,并对LLMs进行了更清洁的评估。Clean-Eval使用基于神经网络的模型对受污染的数据进行释义和回译,生成具有相同含义但不同表面形式的候选集。然后使用语义检测器过滤这些生成的低质量样本,以缩小这个候选集。原创 2024-12-30 21:02:52 · 850 阅读 · 0 评论 -
论文翻译:arxiv-2024.Towards Data Contamination Detection for Modern Large Language Models: Limitations,
随着大型语言模型取得越来越令人印象深刻的成果,人们开始质疑这种性能是否来自泛化能力还是仅仅是数据记忆。因此,提出了许多数据污染检测方法。然而,这些方法通常使用传统基准测试和早期大型语言模型(LLMs)进行验证,留下了对它们在评估最先进的LLMs在更具挑战性的基准测试污染方面的有效性的不确定性。为了填补这一空白,并提供对SOTA LLM污染状态和检测方法鲁棒性的双重调查,我们评估了五种污染检测方法,使用四种最先进的LLMs在现代LLM评估中常用的八个具有挑战性的数据集上。原创 2024-12-03 21:11:21 · 1009 阅读 · 0 评论 -
论文翻译:ACL Finding 2024.CLEAN–EVAL: Clean Evaluation on Contaminated Large Language Models
我们目前正处于各种大型语言模型(LLMs)之间激烈竞争的时代,它们不断推动基准性能的边界。然而,由于潜在的数据污染,真正评估这些LLMs的能力已成为一个具有挑战性和关键性的问题。在本文中,我们提出了一种新颖且有价值的方法,Clean-Eval,它减轻了数据污染的问题,并对LLMs进行了更清洁的评估。Clean-Eval采用基于神经网络的模型对污染数据进行释义和回译,生成具有相同含义但不同表面形式的候选集。然后使用语义检测器过滤这些生成的低质量样本,以缩小这个候选集。原创 2024-11-28 09:50:11 · 724 阅读 · 0 评论 -
论文翻译:arxiv-2024.Lizhou Fan.NPHardEval: Dynamic Benchmark on Reasoning Ability of Large Language
复杂推理能力是当前大型语言模型(LLMs)最重要的特征之一,它在复杂决策任务中也发挥着不可或缺的作用。因此,对LLMs推理能力的调查至关重要:已经建立了许多基准来评估LLMs的推理能力。然而,当前的基准在提供对LLMs能够实现的推理能力的全面严格评估方面存在不足。它们也容易受到过拟合的风险,因为这些基准是公开可访问和静态的,允许模型可能针对特定的基准指标量身定制它们的响应,从而夸大它们的表现。为了解决这些限制,我们的研究引入了一个新的基准,名为NPHardEval。原创 2024-11-23 16:02:30 · 771 阅读 · 0 评论 -
论文翻译:NeurIPS-2024.Zhehao Zhang.DARG: Dynamic Evaluation of Large Language Models via Adaptive
当前通过静态基准测试评估大型语言模型(LLMs)的范式存在显著局限性,例如易受数据污染影响,以及缺乏适应LLMs不断演变能力的灵活性。因此,迫切需要能够适应并生成具有控制复杂性的评估数据的评估方法。在这项工作中,我们引入了通过自适应推理图演化动态评估LLMs(DARG),以动态扩展当前基准测试,控制复杂性和多样性。具体来说,我们首先提取当前基准测试中数据点的推理图,然后扰动这些推理图以生成新的测试数据。这些新生成的测试样本可以在保持与原始基准测试类似的语言多样性的同时,具有不同级别的复杂性。原创 2024-11-23 01:05:04 · 945 阅读 · 0 评论 -
论文翻译:NAACL-2024.Fangyu Lei.S3Eval: A Synthetic, Scalable, Systematic Evaluation Suite for Large
大型语言模型(LLMs)的快速发展在模型能力上取得了巨大进步,如长文本理解和推理。然而,随着LLMs能够处理更长的上下文,评估它们是否获得了某些能力变得更加具有挑战性,因为它们能够处理的文本长度(例如,200K个标记)远远超过了人类在合理时间内可靠评估的范围。在本文中,我们提出了使用复杂的合成任务作为代理评估方法,并介绍了S3EVAL,一个针对LLMs评估的综合、可扩展、系统化的评估套件。原创 2024-11-21 11:18:28 · 912 阅读 · 0 评论 -
论文翻译:AAAI-2024.Liangtai Sun.SciEval: A Multi-Level Large Language Model Evaluation Benchmark for
最近,使用大型语言模型(LLMs)进行科学研究的兴趣日益增长。为了评估LLMs在科学研究中的能力,已经提出了许多基准。然而,当前的基准大多基于预先收集的客观问题。这种设计存在数据泄露问题,并且缺乏对主观问答能力的评估。在本文中,我们提出了SciEval,一个全面且多学科的评估基准,以解决这些问题。基于布鲁姆分类法,SciEval涵盖了四个维度,系统地评估科学研究能力。特别是,我们设计了一个基于科学原理的“动态”子集,以防止评估中潜在的数据泄露。SciEval中既包括客观问题,也包括主观问题。原创 2024-11-20 16:16:46 · 731 阅读 · 0 评论 -
论文翻译:2024-NeurIPS.Pratyush Maini.LLM Dataset Inference Did you train on my dataset?
大型语言模型(LLM)在现实世界的广泛使用伴随着针对公司的训练模型使用未经许可的互联网数据的版权案件的增加。最近的研究提出了识别个别文本序列是否属于模型训练数据的方法,即所谓的成员资格推断攻击(MIAs)。我们展示了这些MIAs的成功似乎被选择的非成员(未用于训练的文本序列)与成员(例如,时间上偏移的近期维基百科文章与用于训练模型的文章)属于不同分布所混淆。这种分布偏移使得成员资格推断看起来是成功的。原创 2024-11-15 20:16:29 · 641 阅读 · 0 评论 -
论文翻译: arxiv-2024.Avi Schwarzschild.Rethinking LLM Memorization through the Lens of Adversarial Compr
在网络规模数据集上训练的大型语言模型(LLMs)引发了关于允许数据使用的实质性关注。一个主要问题是这些模型是否“记忆”了它们所有的训练数据,或者它们是否以更类似于人类学习并综合信息的方式来整合许多数据源。答案在很大程度上取决于我们如何定义记忆。在这项工作中,我们提出了对抗性压缩比(ACR)作为评估LLMs记忆中的一个指标。如果训练数据中的一个给定字符串可以通过比字符串本身短得多的提示来引发,那么它就被认为是记忆的——换句话说,如果这些字符串可以通过计算较少的令牌的对抗性提示与模型“压缩”。原创 2024-11-14 09:28:13 · 665 阅读 · 0 评论 -
论文翻译:2023.ACL.Li Y.Making Large Language Models Better Reasoners with Step-Aware Verifier
少量样本学习是一项具有挑战性的任务,要求语言模型从有限的示例中进行泛化。像GPT-3和PaLM这样的大型语言模型在这个领域取得了令人瞩目的进步,但它们在推理任务上仍然面临困难,例如GSM8K,这是一个用于算术问题的基准。为了提高它们的推理能力,以前的工作提出了使用提示来引导语言模型,这些提示促使在给出最终答案之前产生一系列推理步骤,在GSM8K上从17.9%的问题解决率显著提高到58.1%。在本文中,我们介绍了DIVERSE(推理步骤上的多样化验证器),这是一种新颖的方法,进一步增强了语言模型的推理能力。原创 2024-11-07 09:57:14 · 1016 阅读 · 0 评论 -
论文翻译:ICLR 2024.DETECTING PRETRAINING DATA FROM LARGE LANGUAGE MODELS
尽管大型语言模型(LLMs)被广泛部署,用于训练它们的数据很少被公开。考虑到这些数据的惊人规模,高达数万亿个标记,几乎可以肯定它包含了潜在问题文本,如版权材料、个人身份信息以及广泛报道的参考基准的测试数据。然而,我们目前没有办法知道哪些这类数据被包含在内,或者它们的比例是多少。在本文中,我们研究了预训练数据检测问题:给定一段文本和对一个LLM的黑盒访问,而不知道预训练数据,我们能否确定模型是否在提供的文本上进行了训练?原创 2024-10-30 19:30:46 · 1019 阅读 · 0 评论 -
论文翻译:arxiv-2024.Dillon Bowen.Scaling Laws for Data Poisoning in LLMs
Scaling Laws for Data Poisoning in LLMshttps://arxiv.org/pdf/2408.02946原创 2024-10-20 07:58:41 · 1091 阅读 · 0 评论 -
论文翻译:arxiv-2024.Jasper Dekoninck.Evading Data Contamination Detection for Language Models is (too) E
大型语言模型(LLMs)非常普遍,它们在基准测试中的表现经常引导用户对一个模型的偏好超过另一个模型。然而,这些模型训练所使用的大量数据可能会无意中导致与公共基准测试的数据污染,从而破坏性能测量。尽管最近开发的数据污染检测方法试图解决这个问题,但它们忽视了恶意模型提供者故意污染以逃避检测的可能性。我们认为这种设置至关重要,因为它对公共基准测试用于LLM评估的可靠性提出了质疑。为了更严格地研究这个问题,我们提出了对模型提供者和数据污染检测方法的分类。原创 2024-10-20 09:27:01 · 1128 阅读 · 0 评论 -
论文翻译:ICLR 2024.Roberts M.TO THE CUTOFF... AND BEYOND? A LONGITUDINAL PERSPECTIVE ON LLM
关于大型语言模型(LLM)的卓越能力的最新声明通常通过评估公开可用的基准测试来支持。由于LLM在互联网上广泛的数据上进行训练,这种做法引发了数据污染的担忧,即在评估中使用的样本可能有意或无意地包含在训练数据中。数据污染以臭名昭著的难以测量和减轻,即使尝试进行部分控制实验、训练数据、金丝雀字符串或嵌入相似性等方法也难以有效。在本项工作中,我们通过使用GPT模型中的自然实验——训练截止点——来观察随时间发布的基准测试,进行了首次全面的纵向分析LLM中的数据污染。原创 2024-10-19 06:56:55 · 122 阅读 · 0 评论 -
论文翻译:ACL Workshop 2024.Mehrbakhsh B.Confounders in Instance Variation for the Analysis of
测试污染是对大型语言模型(LLMs)进行评估时的一个严重问题,因为它会导致它们的表现被过高估计,并且基准测试迅速饱和,甚至在实际能力实现之前就达到了。解决这个问题的一个策略是(对抗性)生成变异,通过包含不同的示例和不同的问题重述来实现。然而,这两种干预措施可能导致实例变得更加困难(通过部分移除污染而累积预期性能损失),但也可能导致实例变得更容易(取消预期性能损失),这将使污染无法被检测到。从实例难度的角度理解这两种现象对于确定和测量污染至关重要。原创 2024-10-15 06:39:51 · 116 阅读 · 0 评论 -
论文翻译:QWEN2 TECHNICAL REPORT
本报告介绍了Qwen2系列,这是我们大型语言模型和大型多模态模型的最新成员。我们发布了一套全面的基础和指令调优语言模型,涵盖了从0.5亿到720亿的参数范围,包括密集模型和专家混合模型。Qwen2超越了大多数以前的开放权重模型,包括其前身Qwen1.5,并在语言理解、生成、多语种熟练度、编程、数学和推理等多样化基准上展现出与专有模型相竞争的性能。在MMLU上得分84.2,在GPQA上得分37.9,在HumanEval上得分64.6,在GSM8K上得分89.5,在BBH上得分82.4。原创 2024-10-09 11:31:40 · 666 阅读 · 0 评论 -
大语言模型-教育方向数据集
大语言模型-教育方向数据集。原创 2024-09-19 11:08:48 · 844 阅读 · 0 评论 -
论文翻译:arxiv-2024.Mathieu Ravaut.How Much are Large Language Models Contaminated? A Comprehensive
随着近年来大型语言模型(LLMs)的兴起,涌现出了大量新的机会,但也带来了新的挑战,其中污染问题迅速变得至关重要。在人工智能(AI)的商业应用和筹资中,已经达到了一个规模,即在流行的问答基准测试中获得的几个百分点的提高可能转化为数千万甚至数亿美元,这给模型的完整性带来了巨大的压力。与此同时,追踪LLMs所见过的数据变得越来越困难;对于像GPT-4和Claude-3这样的闭源模型来说,如果不披露任何关于训练集的信息,几乎是不可能的。原创 2024-09-26 15:47:25 · 133 阅读 · 0 评论 -
论文翻译:EMNLP demo-2024..FreeEval: A Modular Framework for Trustworthy and Efficient Evaluation of
大型语言模型(LLM)评估方法和数据集的快速发展带来了巨大的挑战:在确保可靠性、可重复性和效率的同时,成本有效地整合最先进的评估技术。目前,缺乏一个统一且可适应的框架,能够无缝整合各种评估方法。此外,由于潜在的数据污染,评估结果的可靠性常常受到质疑,而在面对与LLM推理相关的巨额成本时,评估效率通常被忽视。为了应对这些挑战,我们介绍了FreeEval,这是一个模块化且可扩展的框架,旨在实现LLMs的可靠和高效自动评估。原创 2024-09-24 20:39:29 · 146 阅读 · 0 评论 -
论文翻译:arxiv-2024.Wei-Lin Chiang.Chatbot Arena: An Open Platform for Evaluating LLMs by Human
大型语言模型(LLMs)已经解锁了新的能力和应用;然而,评估与人类偏好的一致性仍然面临重大挑战。为了解决这个问题,我们介绍了Chatbot Arena,一个基于人类偏好评估LLMs的开放平台。我们的方法采用成对比较方法,并通过众包利用多样化用户群的输入。该平台已经运行了几个月,累积了超过24万张选票。本文描述了该平台,分析了我们迄今为止收集的数据,并解释了我们使用的久经考验的统计方法,用于有效和准确地评估和排名模型。我们确认众包问题足够多样化且具有区分度,众包人类选票与专家评分者的结果非常一致。原创 2024-09-24 20:33:48 · 197 阅读 · 0 评论 -
论文翻译:arxiv-2024.Xiang Li.TreeEval: Benchmark-Free Evaluation of Large Language Models through Tree
最近,为了评估大型语言模型(LLMs)的性能,无论是通过计算整体分数还是使用另一个LLM作为评委,都建立了许多新的基准。然而,这些方法由于基准的公开访问和不灵活的评估过程而受到数据泄露的困扰。为了解决这个问题,我们介绍了TreeEval,这是一种无需基准的LLMs评估方法,让一个高性能的LLM主持一个不可复制的评估会议,基本上避免了数据泄露。此外,这个LLM作为考官,根据树规划策略提出一系列问题,考虑当前评估状态来决定下一个问题生成,并确保评估过程的完整性和效率。原创 2024-09-24 20:24:32 · 126 阅读 · 0 评论 -
论文翻译:NeurIPS-2024.Jiahao Ying.Automating Dataset Updates Towards Reliable and Timely Evaluation of
大型语言模型(LLMs)在各种自然语言基准测试中取得了令人印象深刻的性能,这促使我们不断为更大的LLMs策划更具挑战性的数据集,这是一个成本高昂且耗时的过程。在本文中,我们提出自动化数据集更新,并提供系统性分析,以评估其在处理基准泄露问题、难度控制和稳定性方面的有效性。因此,一旦当前基准被掌握或泄露,我们可以及时更新它,以进行可靠和及时的评估。有两种更新策略:1)模仿策略,基于原始数据生成类似的样本,保留风格和上下文的本质;2)扩展策略,通过适应布鲁姆教育目标分类法,在不同的认知水平上进一步扩展现有样本。原创 2024-09-24 18:37:53 · 159 阅读 · 0 评论 -
论文翻译:ICML-2024.Kaijie Zhu.DyVal 2: Dynamic Evaluation of Large Language Models by Meta Probing
大型语言模型(LLMs)的评估由于数据污染问题引起了社区的极大关注。现有的工作设计了使用特定任务的明确算法的评估协议,这些协议不易扩展到多样化的场景。此外,当前的评估基准只能提供整体基准结果,不能支持对LLMs能力的细粒度和多方面的分析。在本文中,我们提出了元探测代理(MPA),这是一种受心理测量学启发的通用动态评估协议,用于评估LLMs。MPA设计了探测和判断代理,以自动将原始评估问题根据心理测量学理论转换为新的评估问题,涉及三种基本认知能力:语言理解、问题解决和领域知识。原创 2024-09-24 14:50:07 · 162 阅读 · 0 评论 -
论文翻译:arxiv-2024.Kaijie Zhu.DYVAL: DYNAMIC EVALUATION OF LARGE LANGUAGE MODELS FOR REASONING TASKS
大型语言模型(LLMs)在各种评估基准测试中取得了显著的性能。然而,人们担心它们庞大的训练语料库中可能存在数据污染。此外,当前基准测试的静态性质和固定复杂度可能无法充分衡量LLMs不断进步的能力。在本文中,我们介绍了DYVAL,一种用于动态评估LLMs的通用且灵活的协议。基于我们的框架,我们构建了基于图的DYVAL,利用有向无环图的结构优势来动态生成具有可控复杂度的评估样本。DYVAL在包括数学、逻辑推理和算法问题在内的推理任务上生成了具有挑战性的评估集。原创 2024-09-24 14:41:19 · 146 阅读 · 0 评论 -
论文翻译:arxiv-2024.Chunqiu Steven Xia.Top Leaderboard Ranking = Top Coding Proficiency, Always?
LLM(大型语言模型)已成为代码生成任务的首选,特别是在代码生成方面的训练、开发和使用呈指数级增长。为了评估LLM在代码方面的能力,学术界和工业界的从业者都依赖于流行的手工制作的基准测试。然而,以前的基准测试只包含非常有限的问题集,无论是在数量上还是种类上。此外,由于流行和年龄的原因,许多基准测试容易出现数据泄露,示例解决方案可以轻易在网络和训练数据中找到。这些限制不可避免地让我们提出疑问:现有基准测试的排行榜性能是否足够可靠和全面,以衡量LLM的程序合成能力?为了解决这个问题,原创 2024-09-24 13:02:33 · 119 阅读 · 0 评论 -
论文翻译:arxiv-2024.Naman Jain.LiveCodeBench: Holistic and Contamination Free Evaluation of Large
应用于代码相关应用的大型语言模型(LLMs)已经成为一个突出的领域,吸引了学术界和工业界的极大兴趣。然而,随着新的和改进的LLMs的发展,现有的评估基准(例如,HumanEval、MBPP)不再足以评估它们的能力。在这项工作中,我们提出了LiveCodeBench,这是一个全面且无污染的LLMs代码评估方法,它从三个竞技平台(即LeetCode、AtCoder和CodeForces)的比赛活动中随时间收集新问题。原创 2024-09-24 11:16:07 · 198 阅读 · 0 评论 -
大模型数据污染 & 大模型动态评估
论文翻译:arxiv-2024 Estimating Contamination via Perplexity: Quantifying Memorisation in Language Model 高论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS 高论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Sur原创 2024-09-14 14:34:50 · 1120 阅读 · 0 评论 -
论文翻译:AAAI-2024.Yucheng Li.LatestEval: Addressing Data Contamination in Language Model Evaluation
随着在超大规模自动抓取语料库上预训练的语言模型的出现,评估中的数据污染问题日益严重。这一问题导致了对模型能力和泛化能力的准确评估面临重大挑战。本文提出了LatestEval,一种自动化方法,利用最新文本创建无污染的阅读理解评估。LatestEval通过仅使用在最近时间窗口内发布的文本来避免数据污染,确保与预训练语言模型的训练语料库没有重叠。我们开发了LatestEval自动化流程,1) 收集最新文本;2) 识别关键信息;3) 构建针对这些信息的问题,同时从上下文中移除现有答案。原创 2024-09-24 11:01:39 · 245 阅读 · 0 评论 -
论文翻译:NeurIPS-2021-CCF-B.Zhiyi M.Dynaboard: An Evaluation-As-A-Service Platform for Holistic
我们介绍了Dynaboard,这是一个评估即服务平台框架,用于托管基准测试并进行全面的模型比较,与Dynabench平台集成。我们的平台直接评估NLP模型,而不是依赖于自行报告的指标或单一数据集上的预测。在这种范式下,模型被提交到云端进行评估,规避了在NLP基准测试中经常遇到的可重复性、可访问性和向后兼容性问题。这允许用户实时与上传的模型互动以评估其质量,并允许收集额外的指标,如内存使用、吞吐量和鲁棒性,这些指标尽管对实践者很重要,但传统上一直未出现在排行榜上。原创 2024-09-24 10:45:05 · 103 阅读 · 0 评论 -
论文翻译:EMNLP-2023.CCF-A.Alon Jacovi.Stop Uploading Test Data in Plain Text: Practical Strategies for
随着在大型自动抓取的语料库上预训练的模型的兴起,数据污染已经成为一个普遍且具有挑战性的问题。对于封闭模型来说,训练数据变成了商业机密,即使是开放模型,检测污染也并非易事。诸如带有隐藏答案的排行榜,或者使用保证未被见过的测试数据这类策略,成本高昂,并且随着时间的推移变得脆弱。假设所有相关方都重视干净的测试数据,并愿意合作以减轻数据污染,我们可以做什么?我们提出了三种可以产生影响的策略:(1)公开的测试数据应使用公钥加密,并授权禁止衍生分发;(2)原创 2024-09-24 10:27:34 · 488 阅读 · 0 评论 -
论文翻译:arxiv-2024.Tanmay Rajore.TRUCE: Private Benchmarking to Prevent Contamination and Improve
基准测试因其速度、可复制性和低成本而成为评估大型语言模型(LLM)的实际标准。然而,最近的研究指出,目前可用的大多数开源基准测试数据集已经被污染或泄露到LLM中,这意味着LLM在预训练和/或微调期间可以访问测试数据。这引发了对迄今为止进行的基准测试研究的有效性以及使用基准测试进行评估的未来严重担忧。为了解决这个问题,我们提出了私密基准测试,这是一种解决方案,其中测试数据集是私密的,并且模型在不向模型透露测试数据的情况下进行评估。原创 2024-09-24 09:09:01 · 82 阅读 · 0 评论 -
论文翻译:arxiv-2023.Manley Roberts.Data Contamination Through the Lens of Time
关于大型语言模型(LLMs)令人印象深刻的能力的最近声明通常是通过评估公开可用的基准测试来支持的。由于LLMs在互联网的广泛领域上进行训练,这种做法引发了数据污染的担忧,即在训练数据中明确或隐式包含的示例上进行评估。数据污染出了名的难以衡量和缓解,即使有部分尝试,如对训练数据进行控制实验、使用金丝雀字符串或嵌入相似性,也是如此。在这项工作中,我们通过使用GPT模型训练截止日期的自然实验,首次对LLMs中的数据污染进行了全面的纵向分析,以观察随时间发布的基准测试。原创 2024-09-23 15:25:33 · 110 阅读 · 0 评论 -
论文翻译:ACL-2024.Yiming Huang.Competition-Level Problems are Effective LLM Evaluators
大型语言模型(LLMs)展示了令人印象深刻的推理能力,然而,关于这些能力以及最近潜在的数据污染问题的争论仍在持续。本文旨在评估LLMs的推理能力,特别是在解决Codeforces中最近的竞赛级编程问题方面,这些问题是由专家精心设计且独特的,需要深入理解和强大的推理技能。我们首先对GPT-4在这项任务上的零样本(zero-shot)表现进行全面评估,考虑了问题发布时间、难度和遇到的错误类型等多个方面。令人惊讶的是,原创 2024-09-23 14:54:36 · 125 阅读 · 0 评论 -
论文翻译:NeurIPS-2023.Lee A.Platypus: Quick, Cheap, and Powerful Refinement of LLMs
我们介绍了鸭嘴兽(Platypus),这是一个经过微调和合并的大型语言模型(LLM)系列,它在撰写本文时在HuggingFace的开放LLM排行榜上取得了最强性能并名列第一。在这项工作中,我们描述了(1)我们策划的数据集Open-Platypus,这是其他开放数据集的一个子集,我们将其公开发布(2)我们微调和合并LoRA模块的过程,以保留预训练LLMs的强大先验,同时将特定领域知识带到表面==(3)我们在检查训练数据中的测试数据泄露和污染方面的努力==,这可以为未来研究提供信息。原创 2024-09-23 13:23:12 · 195 阅读 · 0 评论 -
论文翻译:EMNLP-2023.CCF-B.Kent K. Chang.Speak, Memory: An Archaeology of Books Known to ChatGPT/GPT-4
在这项工作中,我们进行了数据考古学研究,通过使用名称填空成员推断查询来推断ChatGPT和GPT-4所知的书籍。我们发现,OpenAI模型已经记住了大量受版权保护的材料,记忆的程度与这些书籍的段落在网络出现的频率有关。这些模型对未知书籍集的记忆能力,使得文化分析的测量有效性评估变得复杂,因为它们污染了测试数据;我们表明,对于下游任务,模型在记忆书籍上的表现远胜于非记忆书籍。我们认为,这支持了开放模型的理由,即其训练数据是已知的。原创 2024-09-23 11:57:27 · 155 阅读 · 0 评论 -
论文翻译:arxiv-2024.Yucheng L.An Open-Source Data Contamination Report for Large Language Models
随着大型语言模型的日益普及,模型评估中的数据污染问题变得越来越普遍。它允许模型通过记忆而非展示真正的能力来“作弊”。因此,污染分析已成为可靠模型评估的关键部分,以验证结果。然而,现有的污染分析通常由大型语言模型开发商内部进行,并且通常缺乏透明度和完整性。本文提出了一个广泛的数据污染报告,涵盖了六个流行的多项选择QA基准测试中的超过15个流行的大型语言模型。我们还介绍了一个开源流程,使社区能够在定制的数据和模型上进行污染分析。我们的实验揭示了基准测试中污染程度从1%到45%不等,并且污染程度随时间迅速增加。原创 2024-09-23 11:34:44 · 130 阅读 · 0 评论