StarCoder 2 and The Stack v2: The Next Generation

最新推荐文章于 2025-04-10 09:26:01 发布

UnknownBody

最新推荐文章于 2025-04-10 09:26:01 发布

阅读量464

点赞数 2

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/138597080

LLM Daily 同时被 2 个专栏收录

1734 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

LLM for code

58 篇文章

订阅专栏

本文介绍了StarCoder2，一个专为代码生成设计的LLM系列，以及基于软件遗产档案的The Stack v2，最大的代码LLM预训练语料库。通过训练，StarCoder2模型在代码生成任务中表现出色，尤其是3B和15B参数模型。这些模型在多种基准测试中超越了其他同规模模型，且模型权重和训练数据透明，以促进进一步研究。

本文是LLM系列文章，针对《StarCoder 2 and The Stack v2: The Next Generation》的翻译。

摘要

BigCode项目是一个开放的科学合作项目，专注于负责任地开发大型代码语言模型（Code LLM），引入了StarCoder2。我们与软件遗产（SWH）合作，在其源代码档案的数字公共空间之上构建了The Stack v2。除了涵盖619种编程语言的SWH存储库外，我们还仔细选择了其他高质量的数据源，如GitHub拉取请求、Kaggle笔记本和代码文档。这导致训练集比第一个StarCoder数据集大4倍。我们在3.3至4.3万亿token上训练具有3B、7B和15B参数的StarCoder2模型，并在一套全面的代码LLM基准上对其进行彻底评估。
我们发现，我们的小型模型StarCoder2-3B在大多数基准测试中都优于其他类似大小的代码LLM，也优于StarCoderBase-15B。我们的大模型StarCoder2-15B明显优于其他同等大小的模型。此外，它匹配或优于CodeLlama-34B，后者是其尺寸的两倍多。尽管DeepSeekCoder33B是高资源语言在代码完成方面表现最好的模型，但我们发现StarCoder2-15B在数学和代码推理基准测试以及几种低资源语言方面都优于它。我们根据OpenRAIL许可证提供模型权重，并通过发布源代码数据的SoftWare Heritage持久标识符（SWHID）来确保训练数据的完全透明。