本文是LLM系列文章,针对《StarCoder 2 and The Stack v2: The Next Generation》的翻译。
StarCoder 2和The Stack v2:下一代生成
摘要
BigCode项目是一个开放的科学合作项目,专注于负责任地开发大型代码语言模型(Code LLM),引入了StarCoder2。我们与软件遗产(SWH)合作,在其源代码档案的数字公共空间之上构建了The Stack v2。除了涵盖619种编程语言的SWH存储库外,我们还仔细选择了其他高质量的数据源,如GitHub拉取请求、Kaggle笔记本和代码文档。这导致训练集比第一个StarCoder数据集大4倍。我们在3.3至4.3万亿token上训练具有3B、7B和15B参数的StarCoder2模型,并在一套全面的代码LLM基准上对其进行彻底评估。
我们发现,我们的小型模型StarCoder2-3B在大多数基准测试中都优于其他类似大小的代码LLM,也优于StarCoderBase-15B。我们的大模型StarCoder2-15B明显优于其他同等大小的模型。此外,它匹配或优于CodeLlama-34B,后者是其尺寸的两倍多。尽管DeepSeekCoder33B是高资源语言在代码完成方面表现最好的模型,但我们发现StarCoder2-15B在数学和代码推理基准测试以及几种低资源语言方面都优于它。我们根据OpenRAIL许可证提供模型权重,并通过发布源代码数据的SoftWare Heritage持久标识符(SWHID)来确保训练数据的完全透明。

本文介绍了StarCoder2,一个专为代码生成设计的LLM系列,以及基于软件遗产档案的The Stack v2,最大的代码LLM预训练语料库。通过训练,StarCoder2模型在代码生成任务中表现出色,尤其是3B和15B参数模型。这些模型在多种基准测试中超越了其他同规模模型,且模型权重和训练数据透明,以促进进一步研究。
订阅专栏 解锁全文

2万+

被折叠的 条评论
为什么被折叠?



