本文是LLM系列文章,针对《FullStack Bench: Evaluating LLMs as Full Stack Coders》的翻译。
FullStack Bench:将LLM评估为全栈编码器
摘要
随着代码大型语言模型(LLM)的能力不断扩展,它们在不同代码智能领域的应用正在迅速增加。然而,大多数现有的数据集只评估有限的应用领域。为了解决这一差距,我们开发了一个全面的代码评估数据集FullStack Bench,专注于全栈编程,涵盖了广泛的应用领域(例如,基础编程、数据分析、软件工程、数学和机器学习)。此外,为了评估多语言编程能力,在FullStack Bench中,我们从16种广泛使用的编程语言中设计了真实世界的指令和相应的单元测试用例,以反映真实世界的使用场景,而不是简单的翻译。此外,我们还发布了一个有效的代码沙盒执行工具(即SandboxFusion),支持各种编程语言和软件包,以有效评估我们的FullStack Bench的性能。在我们的FullStack Bench上的综合实验结果证明了我们的FullStackBench和SandboxFusion的必要性和有效性。