Qwen2.5-Coder Technical Report

UnknownBody

已于 2024-11-25 16:29:28 修改

阅读量481

点赞数 4

CC 4.0 BY-SA版权

于 2024-11-15 17:12:46 首次发布

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/143803077

LLM Daily 同时被 3 个专栏收录

1687 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

LLM for code

58 篇文章

订阅专栏

Technical Report

30 篇文章

订阅专栏

本文是LLM系列文章，针对《Qwen2.5-Coder Technical Report》的翻译。

摘要

在本报告中，我们介绍了 Qwen2.5-Coder 系列，这是其前身 CodeQwen1.5 的重大升级。该系列包括六款模型：Qwen2.5-Coder-（0.5B/1.5B/3B/7B/14B/32B）。作为特定于代码的模型，Qwen2.5-Coder 基于 Qwen2.5 架构构建，并在超过 5.5 万亿个token的庞大语料库上继续进行预训练。通过细致的数据清理、可扩展的合成数据生成和平衡的数据混合，Qwen2.5-Coder 展示了令人印象深刻的代码生成能力，同时保留了一般和数学技能。这些模型已经在各种与代码相关的任务上进行了评估，在 10 多个基准测试中实现了最先进的（SOTA）性能，包括代码生成、完成、推理和修复，性能始终优于相同模型大小的较大模型。我们相信，Qwen2.5-Coder 系列的发布将推进代码智能的研究，并通过其宽松的许可支持开发人员在实际应用程序中更广泛地采用。
在这里插入图片描述

1 引言

随着大语言模型（LLM）的快速发展；特定于代码的语言模型已经引起了社区的广泛关注。基于预训练的 LLM 构建的代码 LLM，例如 StarCoder 系列、CodeLlama 系列、DeepSeekCoder 系列、CodeQwen1.5和 CodeStral，在编码评估中表现出了卓越的性能。然而，与最近最先进的专有LLM Claude-3.5-Sonnet 和 GPT-4o 相比，代码LLM仍然落后，无论是开源还是专有模