本文是LLM系列文章,针对《OPENCODER: THE OPEN COOKBOOK FOR TOP-TIER CODE LARGE LANGUAGE MODELS》的翻译。
OPENCODER:顶级代码大型语言模型的开放说明书
摘要
用于代码的大型语言模型 (LLM) 在各个领域(包括代码生成、推理任务和代理系统)中已变得不可或缺。虽然开放获取代码 LLM 越来越接近专有模型的性能水平,但适用于严格科学调查的高质量代码 LLM,尤其是那些具有可重复数据处理管道和透明训练协议的 LLM,仍然有限。稀缺性是由于各种挑战,包括资源限制、道德考虑以及保持模型先进的竞争优势。为了解决这一差距,我们引入了 OpenCoder,这是一种顶级代码 LLM,它不仅实现了与领先模型相当的性能,而且还可以作为研究社区的“开放式食说明书。与之前的大多数工作不同,我们不仅发布了模型权重和推理代码,还发布了可重复的训练数据、完整的数据处理管道、严格的实验消融结果以及用于开放科学研究的详细训练协议。通过这个全面的版本,我们确定了构建顶级代码 LLM 的关键要素:(1) 用于数据清理的代码优化启发式规则和重复数据删除方法,(2) 调用与代码相关的文本语料库,以及 (3) 在退火和监督微调阶段的高质量合成数据。通过提供这种级别的开放性,我们的目标是扩大对顶级代码 LLM 各个方面的访问ÿ