FullStack Bench: Evaluating LLMs as Full Stack Coders

本文是LLM系列文章,针对《FullStack Bench: Evaluating LLMs as Full Stack Coders》的翻译。

FullStack Bench:将LLM评估为全栈编码器

摘要

随着代码大型语言模型(LLM)的能力不断扩展,它们在不同代码智能领域的应用正在迅速增加。然而,大多数现有的数据集只评估有限的应用领域。为了解决这一差距,我们开发了一个全面的代码评估数据集FullStack Bench,专注于全栈编程,涵盖了广泛的应用领域(例如,基础编程、数据分析、软件工程、数学和机器学习)。此外,为了评估多语言编程能力,在FullStack Bench中,我们从16种广泛使用的编程语言中设计了真实世界的指令和相应的单元测试用例,以反映真实世界的使用场景,而不是简单的翻译。此外,我们还发布了一个有效的代码沙盒执行工具(即SandboxFusion),支持各种编程语言和软件包,以有效评估我们的FullStack Bench的性能。在我们的FullStack Bench上的综合实验结果证明了我们的FullStackBench和SandboxFusion的必要性和有效性。

1 引言

2 FullStack Bench

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值