StarCoder 2 and The Stack v2: The Next Generation

本文介绍了StarCoder2,一个专为代码生成设计的LLM系列,以及基于软件遗产档案的The Stack v2,最大的代码LLM预训练语料库。通过训练,StarCoder2模型在代码生成任务中表现出色,尤其是3B和15B参数模型。这些模型在多种基准测试中超越了其他同规模模型,且模型权重和训练数据透明,以促进进一步研究。

本文是LLM系列文章,针对《StarCoder 2 and The Stack v2: The Next Generation》的翻译。

摘要

BigCode项目是一个开放的科学合作项目,专注于负责任地开发大型代码语言模型(Code LLM),引入了StarCoder2。我们与软件遗产(SWH)合作,在其源代码档案的数字公共空间之上构建了The Stack v2。除了涵盖619种编程语言的SWH存储库外,我们还仔细选择了其他高质量的数据源,如GitHub拉取请求、Kaggle笔记本和代码文档。这导致训练集比第一个StarCoder数据集大4倍。我们在3.3至4.3万亿token上训练具有3B、7B和15B参数的StarCoder2模型,并在一套全面的代码LLM基准上对其进行彻底评估。
我们发现,我们的小型模型StarCoder2-3B在大多数基准测试中都优于其他类似大小的代码LLM,也优于StarCoderBase-15B。我们的大模型StarCoder2-15B明显优于其他同等大小的模型。此外,它匹配或优于CodeLlama-34B,后者是其尺寸的两倍多。尽管DeepSeekCoder33B是高资源语言在代码完成方面表现最好的模型,但我们发现StarCoder2-15B在数学和代码推理基准测试以及几种低资源语言方面都优于它。我们根据OpenRAIL许可证提供模型权重,并通过发布源代码数据的SoftWare Heritage持久标识符(SWHID)来确保训练数据的完全透明。

1 引言

2 数据源

3 预处理流程

4 数据组成

5 数据格式化

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值