UnknownBody
AI博士,最近一直follow大模型相关论文,每日会更新学术界论文的进展。
展开
-
Measuring AI Ability to Complete Long Tasks
本文提出了一种量化AI系统能力的新指标——50%任务完成时间跨度(50%-task-completion time horizon),即人类完成AI模型以50%成功率完成的任务所需的平均时间。当前前沿模型的50%时间跨度约为50分钟。自2019年以来,AI的时间跨度每七个月翻倍,2024年增速可能加快。性能提升主要得益于逻辑推理、工具使用能力和错误适应能力的增强。若趋势持续,未来五年内AI可能完成人类需一个月的软件任务。尽管AI基准测试进展迅速,其现实意义仍不明确。50%任务完成时间跨度。原创 2025-03-31 10:44:02 · 106 阅读 · 0 评论 -
Evaluating Large Language Models Against Human Annotators in Latent Content Analysis
在快速数字通信时代,每天都会产生大量文本数据,这就需要高效的潜在内容分析方法来提取有意义的信息。大语言模型(LLMs)为实现这一过程的自动化提供了可能,但目前缺乏在多个维度上将其性能与人类标注者进行全面比较的评估。本研究评估了包括OpenAI的GPT-4、Gemini、Llama和Mixtral等7种前沿大语言模型在分析情感、政治倾向、情感强度和讽刺检测方面相对于人类标注者的可靠性、一致性和质量。原创 2025-03-30 08:30:00 · 9 阅读 · 0 评论 -
ToolHop: A Query-Driven Benchmark for Evaluating Large Language Models in Multi-Hop Tool Use
有效评估多跳工具使用能力对于分析大语言模型(LLMs)的理解、推理和函数调用能力至关重要。然而,由于缺乏可靠的评估数据集,这方面的进展受到了阻碍。为了解决这一问题,我们提出了ToolHop,这是一个包含995个用户查询和3912个相关工具的数据集,专门用于严格评估多跳工具使用能力。ToolHop通过一种新颖的查询驱动数据构建方法,包括工具创建、文档细化和代码生成,确保了多样化的查询、有意义的相互依赖关系、本地可执行的工具、详细的反馈以及可验证的答案。原创 2025-03-28 09:30:00 · 127 阅读 · 0 评论 -
ChineseEcomQA: A Scalable E-commerce Concept Evaluation Benchmark for Large Language Models
随着大语言模型(LLMs)在电子商务等领域的应用日益广泛,特定领域的概念评估基准对于评估其领域能力至关重要。在复杂的电子商务应用中,现有的大语言模型可能会生成与事实不符的信息。因此,有必要构建一个电子商务概念基准。现有基准面临两个主要挑战:(1)处理任务的异构性和多样性;(2)区分电子商务领域内的通用性和特殊性。为了解决这些问题,我们提出了ChineseEcomQA,这是一个可扩展的问答基准,专注于基础电子商务概念。原创 2025-03-18 09:30:00 · 80 阅读 · 0 评论 -
Collab-Overcooked: Benchmarking and Evaluating Large Language Models as Collaborative Agents
基于大语言模型(LLMs)的智能体系统在超越传统自然语言处理任务的现实应用中取得了巨大进展。本文提出了一种新的由大语言模型驱动的多智能体系统(LLM-MAS)基准测试平台Collab-Overcooked,它基于广受欢迎的Overcooked-AI游戏构建,在交互式环境中设置了更具实用性和挑战性的任务。Collab-Overcooked从两个全新的角度扩展了现有基准。第一,它提供了一个支持多种任务和目标的多智能体框架,并鼓励通过自然语言通信进行协作。原创 2025-03-19 08:30:00 · 107 阅读 · 0 评论 -
RE-EVALUATING OPEN-ENDED EVALUATION OF LARGE LANGUAGE MODELS
传统的评估方式主要聚焦于针对特定技能对候选对象进行排名。而诸如大语言模型(LLMs)这样的现代通用模型,显然超越了这种范式。开放式评估系统应运而生,在该系统中,候选模型会依据用户提交的提示进行比较,成为了一种流行的解决方案。尽管开放式评估系统有诸多优点,但我们发现,当前基于Elo的评分系统由于对冗余信息敏感,可能会受到数据中有意或无意偏差的影响,甚至会强化这些偏差。为了解决这个问题,我们将评估视为一个三方博弈,并引入了新的博弈论解决方案,以确保对冗余信息具有鲁棒性。原创 2025-03-09 08:30:00 · 116 阅读 · 0 评论 -
INCLUDE: EVALUATING MULTILINGUAL LANGUAGE UNDERSTANDING WITH REGIONAL KNOWLEDGE
语言之间的大型语言模型(LLM)的性能差异阻碍了它们在许多地区的有效部署,抑制了生成性人工智能工具在许多社区的潜在经济和社会价值。然而,由于缺乏英语以外语言的高质量评估资源,许多语言的功能性LLM(即多语言LLM)的发展受到了瓶颈。此外,目前多语言基准构建的做法往往翻译英语资源,忽视了使用多语言系统的环境的区域和文化知识。在这项工作中,我们构建了一个由197243对来自当地考试来源的QA对组成的评估套件,以衡量多语言LLM在各种地区背景下的能力。原创 2024-12-31 10:15:00 · 137 阅读 · 0 评论 -
Performance Evaluation of Lightweight Open-source Large Language Models in Pediatric Consultations
背景大语言模型 (LLM) 已在医学中展示了潜在的应用,但数据隐私和计算负担限制了它们在医疗机构中的部署。LLM的开源和轻量级版本作为潜在的解决方案出现,但它们的性能,特别是在儿科环境中的性能仍未得到充分探索。我们的目的是评估轻量级LLM在回应儿科患者咨询方面的表现。方法在这项横断面研究中,从2022年12月1日至2023年10月30日期间,从公共在线医疗论坛中随机抽取了250个患者咨询问题,其中25个儿科科室各有10个问题。原创 2024-12-25 10:15:00 · 160 阅读 · 0 评论 -
Evaluating Language Models as Synthetic Data Generators
鉴于在语言模型(LM)训练后越来越多地使用合成数据,LM生成高质量数据的能力几乎与直接解决问题的能力一样重要。虽然之前的工作侧重于开发有效的数据生成方法,但它们缺乏对不同LM作为统一环境中的数据生成器的系统比较。为了解决这一差距,我们提出了AGORABENCH,这是一个基准,提供了标准化的设置和指标来评估LM的数据生成能力。通过使用6个LM合成126万个训练实例并训练99个学生模型,我们发现了关于LM数据生成能力的关键见解。首先,我们观察到LMs表现出明显的优势。原创 2024-12-10 16:52:30 · 479 阅读 · 0 评论 -
CodeGeeX: A Pre-Trained Model for Code Generation with Multilingual Benchmarking on HumanEval-X
大型预训练的代码生成模型,如OpenAI Codex,可以生成语法和功能正确的代码,使程序员的编码更加高效,我们对通用人工智能的追求更加紧密。本文介绍了CodeGeeX,这是一个具有130亿个参数的多语言模型,用于代码生成。截至2022年6月,CodeGeeX已对23种编程语言的8500亿个代币进行了预训练。我们广泛的实验表明,CodeGeeX在HumanEval-X上的代码生成和翻译任务上都优于类似规模的多语言代码模型。原创 2024-11-28 09:00:00 · 74 阅读 · 0 评论 -
Evaluation of Bias Towards Medical Professionals in Large Language Models
社会基于性别、种族和民族对医疗专业人员持有固有的偏见。本研究旨在评估大型语言模型 (LLM) 在住院医师选择方面是否表现出对医疗专业人员的偏见。**方法:**创建虚构的候选人简历以控制包括性别和种族在内的身份因素,同时保持一致的资格。三个 LLM(GPT-4、Claude-3haiku 和 Mistral-Large)使用标准化提示进行测试,以评估和排名特定住院医师计划的简历。通过直接更改性别和种族信息来测试显式偏见,而通过隐藏种族和性别更改候选人的姓名来测试隐性偏见。原创 2024-11-20 10:30:00 · 59 阅读 · 0 评论 -
mHumanEval - A Multilingual Benchmark to Evaluate Large Language Models for Code Generation
大型语言模型 (LLM) 的最新进展显著增强了从自然语言提示生成代码的能力。由 OpenAI 开发的 HumanEval 基准测试仍然是使用最广泛的代码生成基准测试。然而,这个和其他 Code LLM 基准测试面临着严重的限制,特别是在任务多样性、测试覆盖率和语言范围方面。当前的评估主要集中在测试用例有限的英语到 Python 转换任务上,可能会高估模型性能。虽然最近的工作解决了测试覆盖率和编程语言 (PL) 多样性,但从低资源语言提示生成代码在很大程度上仍未得到探索。原创 2024-11-13 09:30:00 · 305 阅读 · 0 评论 -
CODEJUDGE : Evaluating Code Generation with Large Language Models
大型语言模型(LLM)在代码生成方面表现出了良好的性能。然而,如何可靠地评估LLM生成的代码仍然是一个未解决的问题。本文介绍了CODEJUDGE,这是一个代码评估框架,它利用LLM来评估生成代码的语义正确性,而不需要测试用例。我们研究了不同的方法来指导LLM进行“慢思维”,以获得深入可靠的评估。我们在四个代码生成数据集和五种编程语言上用四个LLM作为评估器进行了实验。结果表明,在大多数情况下,CODEJUDGE的表现明显优于现有方法。原创 2024-11-09 10:15:00 · 197 阅读 · 0 评论 -
CAN KNOWLEDGE EDITING REALLY CORRECT HALLUCINATIONS?
大型语言模型(LLM)会出现幻觉,指代生成内容中的非真实信息,尽管它们在任务中具有优越的能力。与此同时,知识编辑已经发展成为一种新的流行范式,可以纠正LLM中编码的错误事实知识,从而避免从头开始重新训练。然而,用于知识编辑的现有评估数据集的一个常见问题是,它们不能确保LLM在编辑之前确实生成了对评估问题的幻觉答案。当LLM在经过不同技术编辑后在这些数据集上进行评估时,很难直接采用性能来评估不同知识编辑方法在纠正幻觉方面的有效性。因此,根本问题仍然没有得到充分验证:知识编辑真的能纠正LLM中的幻觉吗?原创 2024-11-06 11:08:46 · 465 阅读 · 0 评论 -
A User-Centric Benchmark for Evaluating Large Language Models
大型语言模型 (LLM) 是与用户协作完成不同任务的重要工具。评估它们的性能以满足用户在实际场景中的需求非常重要。虽然已经创建了许多基准测试,但它们主要关注特定的预定义模型能力。很少有人介绍真实用户对 LLM 的预期用途。为了解决这一疏忽,我们建议在数据集构建和评估设计中从用户的角度对 LLM 进行基准测试。我们首先从来自 23 个国家/地区的 712 名参与者的用户研究中收集了 1,846 个真实案例和 15 个 LLM。这形成了用户报告场景 (URS) 数据集,其中包含 7 个用户意图的分类。原创 2024-10-29 16:33:13 · 177 阅读 · 0 评论 -
Evaluation of OpenAI o1: Opportunities and Challenges of AGI
这项全面的研究评估了 OpenAI 的 o1-preview 大型语言模型在各种复杂推理任务中的性能,这些任务跨越多个领域,包括计算机科学、数学、自然科学、医学、语言学和社会科学。通过严格的测试,o1-preview 展示了卓越的能力,从编码挑战到科学推理,从语言处理到创造性问题解决,通常都能达到人类水平或卓越的性能。解决复杂的竞争性编程问题的成功率为 83.3%,超过了许多人类专家。生成连贯准确的放射学报告的能力,优于其他评估模型。高中水平数学推理任务准确率 100%,提供详细的分步解答。原创 2024-10-15 09:00:00 · 286 阅读 · 0 评论 -
ChemEval: A Comprehensive Multi-Level Chemical Evalution for Large Language Models
人们对LLM在化学中的作用越来越感兴趣,这导致人们越来越关注针对化学领域量身定制的LLM基准的开发,以评估LLM在不同类型和复杂性的化学任务中的性能。然而,该领域的现有基准未能充分满足化学研究专业人员的具体要求。为此,我们提出了ChemEval,它对LLM在各种化学领域任务中的能力进行了全面评估。具体而言,ChemEval确定了化学中的4个关键渐进水平,评估了42个不同化学任务中LLM的12个维度,这些任务由开源数据和化学专家精心制作的数据提供信息,确保这些任务具有实用价值,能够有效地评估LLM的能力。原创 2024-10-12 09:00:00 · 211 阅读 · 0 评论 -
metabench A Sparse Benchmark to Measure General Ability in Large Language Models
大型语言模型 (LLM) 在一系列任务上的能力各不相同。Open LLM Leaderboard 等举措旨在通过几个大型基准(LLM 可以正确或错误地响应的测试项目集)来量化这些差异。然而,基准分数内部和之间的高度相关性表明 (1) 这些基准衡量存在一小部分共同的潜在能力,并且 (2) 项目利用了冗余信息,因此基准可能会被大大压缩。原创 2024-10-06 12:00:00 · 87 阅读 · 0 评论 -
A COMPREHENSIVE SURVEY ON EVALUATING LARGE LANGUAGE MODEL APPLICATIONS IN THE MEDICAL INDUSTRY
自 2017 年 Transformer 架构问世以来,GPT 和 BERT 等大型语言模型 (LLM) 已经取得了长足的发展,凭借其在语言理解和生成方面的高级能力影响了各个行业。这些模型已显示出改变医疗领域的潜力,凸显了专门的评估框架以确保其有效和合乎道德的部署的必要性。这项全面的调查描述了 LLM 在医疗保健领域的广泛应用和必要评估,强调了实证验证的迫切需求,以充分利用它们在增强医疗保健结果方面的能力。原创 2024-09-08 11:25:58 · 249 阅读 · 0 评论 -
Measuring Social Norms of Large Language Models
我们提出了一个新的挑战,即检验大型语言模型是否理解社会规范。与现有的数据集相比,我们的数据集需要对社会规范有基本的了解才能解决。我们的数据集包含了最大的一组社会规范技能,包括402项技能和12383个问题,涵盖了从意见和论点到文化和法律的广泛社会规范。我们根据K-12课程设计我们的数据集。这使得能够将大型语言模型的社会理解与人类,更具体地说,与小学生进行直接比较。原创 2024-08-29 09:22:08 · 98 阅读 · 0 评论 -
LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models
最近开发的大型语言模型(LLM)已被证明在广泛的语言理解任务中表现出色。但是,他们真的能“推理”自然语言吗?这个问题一直受到广泛的研究关注,许多推理技巧,如常识、数值和定性,都得到了研究。然而,与“逻辑推理”相关的关键技能仍未得到充分探索。现有的研究LLM这种推理能力的工作只集中在命题逻辑和一阶逻辑的几个推理规则(如模式子和模式子)上。针对上述局限性,我们综合评估了LLM在跨越命题逻辑、一阶逻辑和非单调逻辑的25种不同推理模式上的逻辑推理能力。原创 2024-08-26 09:50:48 · 337 阅读 · 0 评论 -
PROMETHEUS 2: An Open Source Language Model Specialized in Evaluating Other Language Models
GPT-4等专有LM通常用于评估各种LM的响应质量。然而,包括透明度、可控性和可负担性在内的担忧强烈推动了专门从事评估的开源LM的发展。另一方面,现有的开放式评估器LMs表现出严重的缺点:1)它们发布的分数与人类分配的分数存在显著差异,2)它们缺乏执行直接评估和成对排名的灵活性,这是两种最常见的评估形式。此外,他们不具备根据自定义评估标准进行评估的能力,而是专注于有用性和无害性等一般属性。原创 2024-08-24 19:29:16 · 133 阅读 · 0 评论 -
Towards Coarse-to-Fine Evaluation of Inference Efficiency for Large Language Models
在现实世界中,大型语言模型(LLM)可以作为帮助用户完成工作的助手,也可以支持高级应用程序的开发。对于LLM的广泛应用,推理效率是一个至关重要的问题,在现有的工作中得到了广泛的研究,并提出了许多优化算法和代码库来提高它。尽管如此,用户仍然发现比较上述所有方法的有效性并理解其潜在机制具有挑战性。在这项工作中,我们对各种代码库的推理性能进行了详细的从粗到细的分析。为了评估整体有效性,我们考察了两个实际应用中的四种使用场景。我们还对Transformer架构中的每个模块进行了深入的理论和实证分析。原创 2024-08-14 10:33:08 · 69 阅读 · 0 评论 -
Evaluating Interventional Reasoning Capabilities of Large Language Models
许多决策任务需要估计干预措施对系统不同部分的因果影响。随着从业者考虑使用大型语言模型(LLM)来自动化决策,研究它们的因果推理能力变得至关重要。最近的一项工作评估了LLM检索常识因果事实的能力,但这些评估并没有充分评估LLM如何推理干预措施。受干预在因果推理中的作用的启发,在本文中,我们进行了实证分析,以评估LLM是否能够准确地更新他们对数据生成过程的知识,以应对干预。我们创建了跨越不同因果图(如混淆、中介)和变量类型的基准,并能够研究基于干预的推理。原创 2024-07-30 10:20:09 · 98 阅读 · 0 评论 -
FreeEval: A Modular Framework for Trustworthy and Efficient Evaluation of Large Language Models
大型语言模型(LLM)评估方法和数据集的快速发展带来了一个深刻的挑战:经济高效地整合最先进的评估技术,同时确保可靠性、可重复性和效率。目前,明显缺乏一个统一且适应性强的框架,能够无缝整合各种评估方法。此外,由于潜在的数据污染,评估结果的可靠性往往值得怀疑,在面临与LLM推理相关的巨额成本时,评估效率往往被忽视。为了应对这些挑战,我们引入了FreeEval,这是一个模块化和可扩展的框架,旨在实现对LLM的可靠和高效的自动评估。原创 2024-07-30 09:42:32 · 83 阅读 · 0 评论 -
The RealHumanEval: Evaluating Large Language Models’ Abilities to Support Programmers
对代码的大型语言模型(LLM)的评估主要依赖于静态基准,包括HumanEval,该基准衡量LLM生成通过单元测试的完整代码的能力。随着LLM越来越多地被用作程序员助理,我们研究了在使用LLM编码时,现有基准的收益是否会转化为程序员生产力的提高,包括编码所花费的时间。除了静态基准测试外,我们还研究了偏好指标的效用,这些指标可能被用作衡量LLM有用性的代理,如代码接受率或复制率。为此,我们引入了RealHumanEval,这是一个web界面,用于衡量LLM通过自动完成或聊天支持来帮助程序员的能力。原创 2024-07-26 10:26:34 · 148 阅读 · 0 评论 -
CODEEDITORBENCH: EVALUATING CODE EDITING CAPABILITY OF LARGE LANGUAGE MODELS
代码的大型语言模型(LLM)正在迅速发展,代码编辑成为一项关键能力。我们介绍CodeEditorBench,这是一个评估框架,旨在严格评估LLM在代码编辑任务中的性能,包括调试、翻译、打磨和需求切换。与仅专注于代码生成的现有基准不同,CodeEditorBench强调软件开发的真实场景和实际方面。我们从五个来源策划了各种编码挑战和场景,涵盖了各种编程语言、复杂性级别和编辑任务。原创 2024-07-24 09:21:07 · 216 阅读 · 0 评论 -
Evalverse: Unified and Accessible Library for Large Language Model Evaluation
本文介绍了Evalverse,这是一个新的库,通过将不同的评估工具统一到一个单一的用户友好的框架中,简化了大型语言模型(LLM)的评估。Evalverce使人工智能知识有限的个人能够轻松地请求LLM评估并接收详细的报告,这得益于与Slack等通信平台的集成。因此,Evalverse是对LLM进行全面评估的强大工具,为研究人员和从业者提供了一个集中且易于访问的评估框架。最后,我们还为Evalverce提供了一段演示视频,以两分钟的格式展示了它的功能和实施。原创 2024-07-19 14:47:26 · 92 阅读 · 0 评论 -
Federated Evaluation of Large Language Models on Downstream Tasks with Collective Wisdom
联邦学习(FL)已成为大型语言模型(LLM)协作训练的一种有前景的解决方案。然而,将LLMs整合到FL中带来了新的挑战,特别是在LLMs的评估方面。传统的评估方法依赖于标记的测试集和基于相似性的指标,只覆盖了可接受答案的一个子集,因此无法准确反映LLM在生成任务上的性能。同时,尽管利用先进LLM的自动评估方法具有潜力,但由于需要将数据传输到外部服务器,它们面临着数据泄露的关键风险,并且由于缺乏领域知识,下游任务的性能也不是最优的。原创 2024-07-14 22:28:03 · 195 阅读 · 0 评论 -
A Comprehensive Evaluation on Event Reasoning of Large Language Models
事件推理是许多应用程序的基础能力。它需要事件模式知识来执行全局推理,并需要处理事件间关系和推理范式的多样性。LLM在各种关系和推理范式上完成事件推理的程度仍然未知。为了缓解这种差异,我们全面评估了LLM的事件推理能力。我们引入了一个新的基准EV2来评估EVent推理。EV2由模式和实例两个层次的评估组成,在关系和推理范式方面是全面的。我们在EV2上进行了广泛的实验。我们发现LLMs具有完成事件推理的能力,但他们的表现远不能令人满意。我们还注意到LLMs中事件推理能力的不平衡。原创 2024-07-12 15:32:54 · 219 阅读 · 0 评论 -
LangBiTe: A Platform for Testing Bias in Large Language Models
将大型语言模型(LLM)集成到各种软件应用程序中,引发了人们对其潜在偏见的担忧。通常,这些模型是在论坛、网站、社交媒体和其他互联网来源的大量数据上训练的,这些数据可能会在模型中灌输有害和歧视性的行为。为了解决这个问题,我们提出了LangBiTe,这是一个系统评估LLM中是否存在偏见的测试平台。LangBiTe使开发团队能够定制他们的测试场景,并根据一组用户定义的道德要求自动生成和执行测试用例。每个测试都由一个输入LLM的提示和一个相应的测试预言器组成,该预言器仔细检查LLM的响应以识别偏差。原创 2024-07-11 17:01:11 · 77 阅读 · 0 评论 -
FoundaBench: Evaluating Chinese Fundamental Knowledge Capabilities of Large Language Models
在新兴的大型语言模型(LLMs)领域,基础知识的评估仍然是一个关键的挑战,特别是对于适合中国语言和文化的模型。本文介绍了FoundaBench,这是一个旨在严格评估中文LLM基础知识能力的开创性基准。FoundaBench包含3354道常识和K12教育科目的多项选择题,经过精心策划,反映了日常和学术知识的广度和深度。我们使用FoundaBench对12种最先进的LLM进行了广泛的评估,采用传统的评估方法和我们的CircularEval协议来减轻模型响应中的潜在偏差。原创 2024-07-11 16:30:31 · 70 阅读 · 0 评论 -
Evaluating the Elementary Multilingual Capabilities of Large Language Models with MULTIQ
大型语言模型(LLM)需要为每个人服务,包括全球大多数非英语使用者。然而,今天的大多数LLM,尤其是开放式LLM,通常只用于英语(例如Llama2、Mistral)或少数高资源语言(例如Mixtral、Qwen)。最近的研究表明,尽管LLM的预期用途有限,但人们还是用许多不同的语言提示LLM。因此,在本文中,我们研究了最先进的多语言能力打开超出预期用途的LLM。为此,我们引入了MULTIQ,这是一个新的银标准基准,用于基本的开放式问题回答,在137种语言的类型多样的集合中有27.4k道测试题。原创 2024-07-04 09:35:42 · 119 阅读 · 0 评论 -
S-Eval: Automatic and Adaptive Test Generation for Benchmarking Safety Evaluation of Large Language
大型语言模型(LLM)因其革命性的功能而备受关注。然而,人们也越来越担心其安全影响,因为LLM产生的输出可能包含各种有害内容,因此在模型部署之前迫切需要对LLM进行全面的安全评估。现有的安全评估基准仍然存在以下局限性:1)缺乏统一的风险分类法,难以系统地对不同类型的风险进行分类、评估和认识;2)薄弱的风险限制了有效反映LLM安全性的能力;3)测试提示生成、选择和输出风险评估缺乏自动化。为了应对这些关键挑战,我们提出了S-Eval,这是一种新的全面、多维和开放式LLM安全评估基准。原创 2024-06-28 10:09:59 · 297 阅读 · 0 评论 -
MANGO: A Benchmark for Evaluating Mapping and Navigation Abilities of Large Language Models
诸如ChatGPT和GPT-4之类的大型语言模型最近在各种自然语言处理任务上取得了惊人的性能。在本文中,我们提出了MANGO,这是一个评估它们执行基于文本的映射和导航能力的基准。我们的基准测试包括53个取自一套文本游戏的迷宫:每个迷宫都有一个漫游,可以访问每个位置,但不覆盖所有可能的路径。任务是回答问题:对于每个迷宫,一个大型语言模型阅读漫游,并回答数百个地图和导航问题,如“你应该如何从房子的西面去阁楼?”和“如果我们从地窖向北和向东去,我们在哪里?原创 2024-06-27 10:28:28 · 138 阅读 · 0 评论 -
LiveCodeBench: Holistic and Contamination Free Evaluation of Large Language Models for Code
应用于代码相关应用程序的大型语言模型(LLM)已成为一个突出的领域,吸引了学术界和工业界的极大兴趣。然而,随着新的和改进的LLM的开发,现有的评估基准(如HumanEval、MBPP)不再足以评估其能力。在这项工作中,我们提出了LiveCodeBench,这是一种对代码LLM的全面且无污染的评估,它从三个竞争平台(即LeetCode、AtCoder和CodeForces)的比赛中收集新问题。值得注意的是,我们的基准测试还关注更广泛的代码相关功能,如自修复、代码执行和测试输出预测,而不仅仅是代码生成。原创 2024-06-24 15:34:06 · 697 阅读 · 0 评论 -
Exploring the Impact of the Output Format on the Evaluation of Large Language Models
编程语言之间的代码翻译是软件工程中一项长期存在的关键任务,有助于传统系统的现代化,确保跨平台兼容性,并提高软件性能。随着大型语言模型(LLM)及其在代码翻译中的应用的最新进展,人们越来越需要对这些模型进行全面评估。在这项研究中,我们在五种语言(包括C、C++、Go、Java和Python)的3820个翻译对上实证分析了11个流行的指令调整LLM的生成输出,参数范围从1B到46.7B。原创 2024-06-21 10:03:09 · 170 阅读 · 0 评论 -
A systematic evaluation of large language models for generating programming code
我们系统地评估了七个大型语言模型在使用各种提示策略、编程语言和任务困难生成编程代码方面的性能。GPT-4大大优于其他大型语言模型,包括Gemini Ultra和Claude 2。GPT-4的编码性能因不同的提示策略而有很大差异。在本研究评估的大多数LeetCode和GeeksforGeeks编码比赛中,采用最佳提示策略的GPT-4优于85%的人类参与者。此外,GPT-4在不同编程语言之间转换代码以及从过去的错误中学习方面表现出强大的能力。GPT-4生成的代码的计算效率与人类程序员的计算效率相当。原创 2024-06-19 10:47:43 · 88 阅读 · 0 评论 -
CheckEval: Robust Evaluation Framework using Large Language Model via Checklist
我们介绍了CheckEval,这是一种使用大型语言模型的新评估框架,解决了当前评估方法中歧义和不一致的挑战。CheckEval通过将评估标准划分为详细的子问题,并为每个问题构建布尔问题清单,简化评估,来解决这些挑战。这种方法不仅使过程更具可解释性,而且通过关注特定的评估维度,显著提高了结果的稳健性和可靠性。通过使用SummEval基准的重点案例研究验证,CheckEval表明与人类判断有很强的相关性。此外,它还展示了一个高度一致的注释者间协议。原创 2024-06-17 10:57:58 · 326 阅读 · 0 评论 -
Dual Instruction Tuning with Large Language Models for Mathematical Reasoning
最近的进展突出了利用思想链(CoT)数据进行数学推理任务的大型语言模型(LLM)的指令调整的成功。尽管LLM经过了微调,但挑战依然存在,例如CoT生成中不正确、缺失和冗余的步骤,导致答案预测不准确。为了缓解这个问题,我们提出了一种双指令调整策略,从正向和反向对数学推理进行精心建模。这包括引入中间推理状态预测任务(正向推理)和指令重构任务(反向推理),以增强LLM对指令的理解和执行。这些任务的训练实例是基于现有的数学指令调整数据集构建的。随后,LLM使用现有的数学指令和新创建的数据进行多任务微调。原创 2024-06-17 09:39:09 · 140 阅读 · 0 评论