加码 AI 生态,蚂蚁集团开源代码大模型 Ling-Coder-Lite

以下文章来源于蚂蚁开源,作者 CodeFuse & Ling

从 LLM 的挑战到 MoE 的突破

随着人工智能技术的飞速发展,代码大语言模型(Code LLM)正在成为开发者工具链中的重要组成部分。从代码补全到错误修复,从多语言支持到复杂任务的自动化处理,代码大模型正在重新定义编程的效率和可能性。

然而,尽管代码大模型的能力不断提升,开发者在实际应用中仍面临性能与效率的平衡、多语言与多任务的支持两大挑战。为了解决这些问题,专家混合模型(Mixture of Experts, MoE) 应运而生。MoE 架构通过动态激活部分参数,显著降低了计算成本,同时提升了模型的灵活性和效率。蚂蚁集团正式开源 Ling-Coder-Lite——一款 MoE 架构的代码大语言模型,实现推理效率提升 1.5-2 倍,为 AI-IDE 代码补全等场景提供高效解决方案。希望为开发者提供高效、多功能且易于集成的代码生成和理解工具。

核心亮点

本次发布关键总结如下:

  • 模型和数据集开源:2 个轻量级代码大模型 Ling-Coder-Lite 和 Ling-Coder-Lite-Base 已在 Hugging Face 与 ModelScope 开源 。同时,蚂蚁集团开源用于退火训练的 SyntheticQA、用于后训练 SFT(Supervised Fine-tuning)和 DPO(Direct Preference Optimization)共计约 3000 万条数据(图 1(a)),支持社区进一步研究和开发。

  • 技术细节公开:本次开源同步发布技术报告,公开更多关于高质量训练代码数据集构建方法,以及训练中数据分阶段混合配比策略的细节,助力行业共同推进代码大模型研究。

  • 效率与效果平衡升级:基于 Ling-MoE 架构,Ling-Coder-Lite 总参数量为 16.8B,推理时激活参数仅为 2.75B,同时兼顾了更高效率和更好效果。

  • 多语言和多任务支持:Ling-Coder-Lite 支持 Python、Java、C++、JavaScript 等数十种常用编程语言,在 MultiPL-E 和 MBXP 等多语言基准测试中表现优秀。此外,除简单的和多语言的代码生成之外,还支持竞赛类和应用类高级代码生成、代码理解和输入输出推理、数据科学和 SQL 类数据分析、代码修复等多个任务场景。

模型效果

在 12 个代码基准测试中,Ling-Coder 的表现和类似尺寸最佳模型(Qwen2.5-Coder-7B)不相上下(12 个中 7 个胜出),领先于 OpenCoder-8B 和 DeepSeek-Coder-V2-Lite,具体参见图 1(b); 推理效率比 Qwen2.5-Coder-7B 快 1.5X~2X(图 1(c)),特别适合需要低延迟响应的场景,如 AI-IDE 中的代码补全。实际内部使用中,Ling-Coder-Lite 在相同延迟设定下,比此前基于 Dense 架构的类似尺寸模型节省一半部署资源。

探索 Markdown 的奇妙世界

图 1: Ling-Coder-Lite 开源数据、模型代码能力及理论推理效率

  1. Ling-Coder-Lite 在退火和后训练过程中使用的部分高质数据(约 30M 样本)已开源; 

  2. 类似参数规模的代码 LLM 在 12 个基准测试中的性能表现; 

  3. 各种模型在性能(平均评估得分)与理论计算量(4096 上下文长度的单次推理所需的 TFLOPs)之间的对比。

    未来计划

    未来,我们计划在多个维度上继续优化 Ling-Coder-Lite,包括:

    • 继续推进代码大模型性能与效率的界限。

    • 通过引入强化学习和执行反馈,提升模型在处理实际软工任务上的推理能力。

    • 继续提高代码数据质量,特别是合成数据的质量。

    获取方式

    Ling-Coder-Lite 模型及相关数据集已开源,技术报告已对外发布。欢迎开发者、研究人员和企业使用并与我们共同探讨,进一步推动代码 LLM 技术的发展,赋能更多创新应用场景。获取报告、模型和数据:

    • Ling-Coder 技术报告:https://arxiv.org/abs/2503.17793

    • Ling 技术报告:https://arxiv.org/abs/2503.05139

    • 模型:https://huggingface.co/inclusionAI/Ling-Coder-lite

    • SyntheticQA 数据:https://huggingface.co/datasets/inclusionAI/Ling-Coder-SyntheticQA

    • SFT 数据:https://huggingface.co/datasets/inclusionAI/Ling-Coder-SFT

    • DPO 数据:https://huggingface.co/datasets/inclusionAI/Ling-Coder-DPO

    Ling-Coder-Lite 是一款高效、多功能的代码大语言模型,致力于为开发者提供强大的代码生成、理解和优化能力。我们期待通过开源社区的力量,进一步推动代码 LLM 技术的发展,赋能更多创新应用场景。


    推荐阅读


    蚂蚁技术研究院发布推理大模型强化学习框架,邀请开发者共同助力 AGI 生态


    蚂蚁国产 GPU 训练大模型细节曝光!Ling 模型研发负责人回应:关于我们抠 FLOPS 的一些点滴

    评论
    添加红包

    请填写红包祝福语或标题

    红包个数最小为10个

    红包金额最低5元

    当前余额3.43前往充值 >
    需支付:10.00
    成就一亿技术人!
    领取后你会自动成为博主和红包主的粉丝 规则
    hope_wisdom
    发出的红包
    实付
    使用余额支付
    点击重新获取
    扫码支付
    钱包余额 0

    抵扣说明:

    1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
    2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

    余额充值