FullStack Bench: Evaluating LLMs as Full Stack Coders

UnknownBody

于 2025-02-07 09:00:00 发布

阅读量174

点赞数 3

CC 4.0 BY-SA版权

分类专栏： LLM Daily LLM for code 文章标签：语言模型人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/145457865

LLM Daily 同时被 2 个专栏收录

1689 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

58 篇文章

订阅专栏

本文是LLM系列文章，针对《FullStack Bench: Evaluating LLMs as Full Stack Coders》的翻译。

FullStack Bench：将LLM评估为全栈编码器

摘要
1 引言
2 FullStack Bench
3 SandboxFusion
4 实验
5 相关工作
6 结论

摘要

随着代码大型语言模型（LLM）的能力不断扩展，它们在不同代码智能领域的应用正在迅速增加。然而，大多数现有的数据集只评估有限的应用领域。为了解决这一差距，我们开发了一个全面的代码评估数据集FullStack Bench，专注于全栈编程，涵盖了广泛的应用领域（例如，基础编程、数据分析、软件工程、数学和机器学习）。此外，为了评估多语言编程能力，在FullStack Bench中，我们从16种广泛使用的编程语言中设计了真实世界的指令和相应的单元测试用例，以反映真实世界的使用场景，而不是简单的翻译。此外，我们还发布了一个有效的代码沙盒执行工具（即SandboxFusion），支持各种编程语言和软件包，以有效评估我们的FullStack Bench的性能。在我们的FullStack Bench上的综合实验结果证明了我们的FullStackBench和SandboxFusion的必要性和有效性。

1 引言

2 FullStack Bench

3 SandboxFusion

4 实验

5 相关工作

6 结论

本文提供了一个更全面的评估框架FullStack Bench，以及相应的有效执行环境SandboxFusion，用于代码智能，旨在评估现实世界代码开发场景中的多语言编程能力。具体来说，首先，我们的FullSt

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。