本文是LLM系列文章,针对《WAVECODER: WIDESPREAD AND VERSATILE ENHANCED INSTRUCTION TUNING WITH REFINED DATA GENERATION》的翻译。
摘要
最近的工作表明,在对高质量的指令数据集进行微调后,生成的模型可以获得令人印象深刻的能力来处理广泛的任务。然而,现有的指令数据生成方法往往会产生重复的数据,并且在数据质量上不够可控。在本文中,我们通过将指令数据分类到4个代码相关任务来扩展指令调优的通用性,这4个任务是专门为增强代码大型语言模型(LLM)的指令调优而设计的,并提出了一个基于LLM的生成器-鉴别器数据处理框架,以从开源代码中生成多样化、高质量的指令数据。因此,我们引入了CodeOcean,这是一个包含4个通用代码相关任务的20000个指令实例的数据集,旨在增强指令调优的有效性,提高微调模型的泛化能力。随后,我们介绍了WaveCoder,一种具有广泛和通用增强指令调整的微调代码LLM。我们的实验表明,WaveCoder在相同微调级别的不同代码相关任务中的泛化能力方面优于其他开源模型。此外,WaveCoder在以前的代码生成任务中表现出很高的效率。因此,本文对指令数据生成和微调模型领域做出了重大贡献,为提高代码相关任务的性能提供了新的见解和工具。