
2023 年可以称得上是大模型元年,在过去的这一年里,大模型领域飞速发展,新的大模型纷纷涌现,基于大模型的新产品也吸引着大家的眼球,未来,这个领域又会给大家带来多少惊喜?
蚂蚁也推出了自己的百灵代码大模型 CodeFuse,经历近半年内部打磨后,在 9 月正式对外开源。下面就让我们来看一下,在过去的半年里,CodeFuse 在开源方面取得了哪些进展?
一、让研发变得更简单
在大模型落地到多个场景的过程中,代码自动生成,成为技术实现的必要环节。在这一趋势下,蚂蚁集团基于百灵大模型,推出了蚂蚁百灵研发助手,帮助开发者自动生成代码、注释、测试用例等,提高研发效率。
CodeFuse 源于蚂蚁自身的开发场景及代码库沉淀,基于海量高质量代码数据和代码领域特色词表,和多任务微调技术 MFT,在蚂蚁一万多内部研发人员的日常编码、测试、运维等场景中,经过反复验证与迭代。当前,CodeFuse 从研发效能、DevOps 衍生到了企业IT智能化场景智能体的探索。同时,基于 CodeFuse,蚂蚁集团打造了代码大模型的完整工具链,包括:模型服务、风险防护、数据质量、平台工程。
2023 年中,CodeFuse 及其必要的工具链,面向技术社区开源开放,帮助社区开发人员在此之上作研究、评价和二次开发和训练。
目前,CodeFuse 在蚂蚁各部门落地支持 40 多种编程语言,10 多个主流 IDE 平台。整体采纳率30%,代码通过 AI 占比 20%。比如,CodeFuse 在蚂蚁数字科技的 SOFAStack 云原生应用智能商业产品线全面融合,涵盖设计、研发、测试、运维等领域,形成从领域建模到智能运维端到端 Copilot 产品解决方案,提升了企业级应用的交付效率和质量,加速行业数字化降本增效。
二、丰富的开源内容
CodeFuse 的使命是开发专门设计用于支持整个软件开发生命周期的大型代码语言模型(Code LLMs),当前内容涵盖代码、运维、分析、测试、推理、评价六大方向。截止 2023.12.31,CodeFuse 已累计开源了 11 个代码仓库、4 个数据集、11 个大模型参数文件,总计关注/点赞数超过3000、下载量超过 2.4 万,并有 1 篇论文已被接收,2 篇预影印在 Arxiv 上。

1、代码 - MFTCoder 系列:
国际首个高精度、高效率、多任务、多模型支持、多训练算法,大模型代码能力微调框架;多任务微调的技术细节已在 Arxiv 公布,可参考MFTCoder论文,以及此前发布的文章
预训练语言模型可以在大量的文本数据上学习通用的语

蚂蚁集团的CodeFuse大模型在2023年取得显著进展,从代码自动生成到DevOps领域,开源内容丰富,包括代码、运维、分析、测试等多个方向。社区活动活跃,CodeFuse获得了业界认可,并预告了2024年的更多创新。
最低0.47元/天 解锁文章
599

被折叠的 条评论
为什么被折叠?



