本文是LLM系列文章,针对《CodeUltraFeedback: An LLM-as-a-Judge Dataset for Aligning Large Language Models to Coding Preferences》的翻译。
CodeUltraFeedback:一个LLM即判断数据集,用于将大型语言模型与编码偏好相匹配
摘要
评估大型语言模型(LLM)与用户定义的编码偏好的一致性是一项具有挑战性的工作,需要评估复杂的文本LLM的输出。由于依赖于自动化指标和静态分析工具,现有的基准无法评估用户指令和LLM输出中的细微差别,这突出了对大规模数据集和LLM偏好调整基准的需求。在本文中,我们介绍了CodeUltraFeedback,这是一个由10000条复杂指令组成的偏好数据集,用于通过人工智能反馈调整LLM并使其与编码偏好保持一致。我们使用14个不同的LLM库生成对指令的响应,然后使用GPT-3.5的LLM-as-a-Juage方法,根据它们与五个编码偏好的一致性对其进行注释,从而产生数字和文本反馈。我们还介绍了CODAL Bench,这是一个评估LLM与这些编码偏好一致性的基准。我们的研究结果表明,CodeLlama7B Instruction通过使用CodeUltraFeedback的人工智能反馈数据从人工智能反馈(RLAIF)中进行强化学习与直接偏好优化(DPO)相结合,在CODAL Bench上优于34B LLM,验证了CodeUltraFeedFeedback对偏好调整的效用。此外,我们展示了与未对齐的基本模型相比,我们的DPO对齐 CodeLlama模型提高了HumanEval+上的功能正确性。因此,我们的贡献弥补了LLM对代码的偏好调整方面的差距,并为模型对齐和RLAIF对代码智能的进一步进步奠定了基础。

订阅专栏 解锁全文
1442

被折叠的 条评论
为什么被折叠?



