本文是LLM系列文章,针对《DolphCoder: Echo-Locating Code Large Language Models with
Diverse and Multi
摘要
代码大型语言模型(Code-LLM)在与代码相关的任务中表现出了卓越的性能。已经提出了几种指令调优方法来提高预训练的代码LLM的代码生成性能。在本文中,我们介绍了一种用于代码生成的具有自评估功能的多样化指令模型(DolphCoder)。它学习不同的指令目标,并结合代码评估目标来增强其代码生成能力。我们的模型在HumanEval和MBPP基准测试上实现了卓越的性能,为未来的代码指令调优工作展示了新的见解。我们的主要发现是:(1)通过不同的推理路径增强更多样的响应,提高了LLM的代码能力。(2) 提高一个人评估代码解决方案正确性的能力也会增强他们创建代码解决方案的能力。
1 引言
2 方法
3 实验
4 分析
5 相关工作
6 结论和未来工作
在本文中,我们研究了两种微调方法来提高LLM在代码生成方面的性能。我们首先介绍了一种响应增强策略