本文是LLM系列文章,针对《CODEEDITORBENCH: EVALUATING CODE EDITING CAPABILITY OF LARGE LANGUAGE MODELS》的翻译。
摘要
代码的大型语言模型(LLM)正在迅速发展,代码编辑成为一项关键能力。我们介绍CodeEditorBench,这是一个评估框架,旨在严格评估LLM在代码编辑任务中的性能,包括调试、翻译、打磨和需求切换。与仅专注于代码生成的现有基准不同,CodeEditorBench强调软件开发的真实场景和实际方面。我们从五个来源策划了各种编码挑战和场景,涵盖了各种编程语言、复杂性级别和编辑任务。对19个LLM的评估表明,闭源模型(特别是Gemini Ultra和GPT-4)在CodeEditorBench中的表现优于开源模型,突出了基于问题类型和提示敏感性的模型性能差异。CodeEditorBench旨在通过提供一个强大的平台来评估代码编辑能力,从而促进LLM的进步。我们将发布所有提示和数据集,使社区能够扩展数据集并对新兴LLM进行基准测试。通过引入CodeEditorBench,我们为LLM在代码编辑方面的进步做出了贡献,并为研究人员和从业者提供了宝贵的资源。