
LLMs-动态评估
文章平均质量分 95
CSPhD-winston-杨帆
合作:winstonyf@qq.com 暨大博士生 川师大研究生 前成都东软教师
展开
-
论文阅读:EMNLP demo-2024.FreeEval: A Modular Framework for Trustworthy and Efficient Evaluation of Large
如何用低成本集成先进的评估技术?如何确保评估结果的可靠性、可重复性和效率?当前缺乏一个统一且灵活的框架,可以无缝整合多种评估方法。而且,评估结果的可靠性往往因为数据污染(比如训练数据中包含测试数据)受到质疑,同时评估效率也常被忽视,因为LLM的推理成本很高。为了解决这些问题,论文提出了FreeEval,一个模块化和可扩展的框架,用于对LLM进行可信、高效的自动评估。通过统一的抽象模型,简化了复杂评估方法的整合,提高了评估过程的透明度。原创 2024-12-14 15:08:02 · 671 阅读 · 0 评论 -
论文阅读:AAAI-2024.SciEval: A Multi-Level Large Language Model Evaluation Benchmark for Scientifc
论文提出了一个全新的多学科评价基准SciEval现有评估基准通常依赖预先收集的客观问题,容易引发数据泄漏风险。这些基准缺乏对主观问答能力的评估。基于Bloom’s 教学目标分类法基础知识知识应用科学计算和研究能力。包括客观问题和主观问题,通过设计实验数据评估科学推理与应用能力。提出了基于科学原理的动态数据生成,避免数据泄漏问题,并提升评价的公平性和可信性。GPT-4在评估中表现最优,但在动态问题上仍存在较大提升空间。代码和数据公开在 GitHub 上,便于广泛使用。原创 2024-12-15 11:09:48 · 1279 阅读 · 0 评论 -
论文阅读:NeurIPS-2024.Automating Dataset Updates Towards Reliable and Timely Evaluation of Large
大语言模型(LLMs)在各种自然语言任务中表现出色,但这种进步也带来了一个问题:随着模型的能力提高,现有的评估数据集变得太容易,很快就不够用了。构建更难的数据集既耗时又昂贵,而仅靠人工创建是不现实的。为了解决这个问题,论文提出了一个自动化更新数据集的方法,用于及时且可靠地评估大语言模型。使用大语言模型自动生成与原数据相似的新样本,同时保留原数据的风格和上下文。这种方法简单高效,能在一定程度上缓解数据泄露带来的评估失真。原创 2024-12-07 16:46:23 · 1060 阅读 · 0 评论 -
大模型数据污染 & 大模型动态评估
论文翻译:arxiv-2024 Estimating Contamination via Perplexity: Quantifying Memorisation in Language Model 高论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS 高论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Sur原创 2024-09-14 14:34:50 · 1128 阅读 · 0 评论 -
论文翻译:arxiv-2024.Lizhou Fan.NPHardEval: Dynamic Benchmark on Reasoning Ability of Large Language
复杂推理能力是当前大型语言模型(LLMs)最重要的特征之一,它在复杂决策任务中也发挥着不可或缺的作用。因此,对LLMs推理能力的调查至关重要:已经建立了许多基准来评估LLMs的推理能力。然而,当前的基准在提供对LLMs能够实现的推理能力的全面严格评估方面存在不足。它们也容易受到过拟合的风险,因为这些基准是公开可访问和静态的,允许模型可能针对特定的基准指标量身定制它们的响应,从而夸大它们的表现。为了解决这些限制,我们的研究引入了一个新的基准,名为NPHardEval。原创 2024-11-23 16:02:30 · 773 阅读 · 0 评论 -
论文翻译:NeurIPS-2024.Zhehao Zhang.DARG: Dynamic Evaluation of Large Language Models via Adaptive
当前通过静态基准测试评估大型语言模型(LLMs)的范式存在显著局限性,例如易受数据污染影响,以及缺乏适应LLMs不断演变能力的灵活性。因此,迫切需要能够适应并生成具有控制复杂性的评估数据的评估方法。在这项工作中,我们引入了通过自适应推理图演化动态评估LLMs(DARG),以动态扩展当前基准测试,控制复杂性和多样性。具体来说,我们首先提取当前基准测试中数据点的推理图,然后扰动这些推理图以生成新的测试数据。这些新生成的测试样本可以在保持与原始基准测试类似的语言多样性的同时,具有不同级别的复杂性。原创 2024-11-23 01:05:04 · 945 阅读 · 0 评论 -
论文翻译:AAAI-2024.Liangtai Sun.SciEval: A Multi-Level Large Language Model Evaluation Benchmark for
最近,使用大型语言模型(LLMs)进行科学研究的兴趣日益增长。为了评估LLMs在科学研究中的能力,已经提出了许多基准。然而,当前的基准大多基于预先收集的客观问题。这种设计存在数据泄露问题,并且缺乏对主观问答能力的评估。在本文中,我们提出了SciEval,一个全面且多学科的评估基准,以解决这些问题。基于布鲁姆分类法,SciEval涵盖了四个维度,系统地评估科学研究能力。特别是,我们设计了一个基于科学原理的“动态”子集,以防止评估中潜在的数据泄露。SciEval中既包括客观问题,也包括主观问题。原创 2024-11-20 16:16:46 · 731 阅读 · 0 评论