2024 年 8 月暨 ACL 2024 57篇代码大模型论文精选

最新推荐文章于 2025-07-31 16:54:37 发布

原创

最新推荐文章于 2025-07-31 16:54:37 发布 · 3.8k 阅读

34 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #AIGC #大数据 #开源 #大模型

引言：

2024年8月中旬，国际计算语言学大会 ACL 在泰国曼谷召开。在本文中，亲临现场的小编为大家整理了会议中所展示的48篇代码大模型相关论文，包括24篇主会与24篇 findings。在本文的末尾，我们也额外整理了9篇8月最新代码大模型论文精选。

若您想了解其他时期的代码大模型论文，也欢迎关注我们的代码大模型综述 https://arxiv.org/abs/2311.07989 和 GitHub 开源项目 https://github.com/codefuse-ai/Awesome-Code-LLM，以及往期回顾：

原文推荐：

2024 年 7 月 117 篇代码大模型论文最全整理

2024 年 6 月 118 篇代码大模型论文最全整理

2024 年 5 月 90 篇代码大模型论文最全整理

主会

XFT: Unlocking the Power of Code Instruction Tuning by Simply Merging Upcycled Mixture-of-Experts

本文提出了名为 XFT 的新型训练方案，通过将 upcycle 后的混合专家模型 (MoE) 合并来提升指令微调代码大模型的性能上限。XFT 在稀疏 upcycle 中引入了共享专家机制和一种新型的路由权重归一化策略，显著提升了指令微调效果。在对 upcycle 后的 MoE 模型进行微调后，XFT 引入了一种可学习的模型合并机制，将 MoE 模型合并回密集模型，从而以仅使用密集模型的计算量实现 MoE 水平的性能。XFT 可以应用于各种代码指令微调任务，并与现有技术互补，为提升代码指令微调效果开辟了新的维度。

链接：https://arxiv.org/abs/2404.15247

机构：University of Illinois Urbana-Champaign

WaveCoder: Widespread And Versatile Enhancement For Code Large Language Models By Instruction Tuning

本文针对代码大模型在多任务场景下的泛化能力问题，提出了一系列名为 WaveCoder 的模型。WaveCoder 通过利用开源代码数据集生成大量高质量的多任务指令数据，并使用该数据对模型进行训练，从而提升模型在多个代码相关任务上的泛化能力。实验结果表明，WaveCoder 在不同代码任务上的泛化能力显著优于其他开源模型，其中 WaveCoder-Ultra-6.7B 模型在各种代码相关任务上展现出最强的泛化能力。

链接：https://arxiv.org/abs/2312.14187

机构：Microsoft

DolphCoder: Echo-Locating Code Large Language Models with Diverse and Multi-Objective Instruction Tuning

本文提出了一种名为 DolphCoder 的多样化指令模型，通过自评估的方式来提升代码生成能力。该模型学习多种指令目标，并结合代码评估目标来增强其代码生成能力，在 HumanEval 和 MBPP 基准测试中取得了优异的性能。论文主要发现：增加更多具有不同推理路径的回答可以提升大模型的代码生成能力，且提高模型评估代码解决方案正确性的能力也能增强其代码生成能力。

链接：https://arxiv.org/abs/2402.09136

机构：Beijing University of Posts and Telecommunications

UniCoder: Scaling Code Large Language Model via Universal Code

本文提出了一个名为 UniCode 的通用代码中间表示，通过将算法步骤用编程语言中的赋值运算符、条件运算符和循环等语法描述来训练一个名为 UniCoder 的多任务学习模型。该模型通过在代码生成过程中加入通用代码，使模型能够更好地理解自然语言指令并生成高质量的代码。实验证明，UniCoder 在代码翻译和生成任务中显著优于现有的基于思维链的提示方法，展现了伪代码结构提示的有效性。

链接：https://arxiv.org/abs/2406.16441

机构：Beihang University

StepCoder: Improve Code Generation with Reinforcement Learning from Compiler Feedback

本文提出了一个用于代码生成的强化学习框架 StepCoder。该框架通过将长代码生成任务分解成一系列代码补全子任务来解决大语言模型在生成复杂代码时的探索挑战，并通过屏蔽未执行的代码片段进行精细化的优化来提高代码生成质量。该论文还构建了一个手动验证的测试集 APPS+ 用于强化学习训练，且实验结果表明 StepCoder 在相关基准测试中取得了优于现有技术的成果。

链接：https://arxiv.org/abs/2402.01391

机构：Fudan University

JumpCoder: Go Beyond Autoregressive Coder via Online Modification

本文提出了一个名为 JumpCoder 的框架，增强代码大模型的可逆性，使它们能够像人类一样在编程过程中及时修正先前遗漏的语句，从而减少错误传播并提高生成代码的质量。JumpCoder 通过一个辅助的填充模型，在生成过程中根据需要将新的代码插入到已生成的代码中，并使用抽象语法树解析器和生成模型评分来判断填充的有效性。实验结果表明，JumpCoder 在多个基准测试中都显著提升了现有代码大模型的性能。

链接：https://arxiv.org/abs/2401.07870

机构：Zhejiang University

HiRoPE: Length Extrapolation for Code Models Using Hierarchical Position

本文提出了一种名为 HiRoPE 的新型层次旋转位置嵌入方法，用于解决现有大语言模型在处理长代码序列时由于上下文长度限制而导致的性能问题。HiRoPE 受人类程序员理解代码的启发，将传统的旋转位置嵌入扩展为层次结构，并能轻松地集成到现有的语言模型中，无需额外的训练成本。实验证明，HiRoPE 在语言建模和长代码补全等任务中表现稳定，并且有效地扩展了语言模型的上下文长度，使其能够处理比训练长度指数级更长的序列。

链接：https://arxiv.org/abs/2403.19115

机构：Peking University

Enhancing Large Language Models in Coding Through Multi-Perspective Self-Consistency

本文提出了一种名为多视角自一致性 (MPSC) 的框架，以增强大语言模型的代码生成性能。MPSC 将 LLM 的推理过程视为不同的视角，通过引导模型生成解决方案、规范和测试用例三种不同的输出，构建一个三部图。利用两种一致性度量函数，MPSC 将跨视角间的相互一致性和单个视角内部的一致性信息嵌入到图中，并基于图分析确定最佳解决方案。MPSC 在各种基准测试中显著提高了基座模型 (ChatGPT) 的性能，包括 HumanEval (+15.91%)、MBPP (+6.43%) 和 CodeContests (+9.37%)，甚至超越了 GPT-4。

链接：https://arxiv.org/abs/2309.17272

机构：Peking University

ArchCode: Incorporating Software Requirements in Code Generation with Large Language Models

本文提出了一个名为 ArchCode 的新框架，利用上下文学习从文本描述中提取并组织完整的软件需求，包括功能性需求和非功能性需求，并推断出未明确表达的需求。ArchCode 可以根据描述生成需求，并在此基础上生成代码片段和测试用例，每个测试用例都针对特定的需求，从而根据执行结果与需求的符合程度对代码片段进行排序。实验结果表明，ArchCode 能够提高对功能性需求的满足度，显著提升 pass@k 得分。此外，论文还引入了首个用于评估代码生成中非功能性需求的基准 HumanEval-NFR，证明了 ArchCode 在该领域优于其他基线方法。

链接：https://www.arxiv.org/abs/2408.00994

机构：Seoul