CodeUltraFeedback An LLM-as-a-Judge Dataset for Aligning Large Language Models to Coding Preferences

最新推荐文章于 2025-11-29 08:55:31 发布

UnknownBody

最新推荐文章于 2025-11-29 08:55:31 发布

阅读量247

点赞数

CC 4.0 BY-SA版权

分类专栏： LLM Daily DPO 文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/139915564

LLM Daily 同时被 2 个专栏收录

1734 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

DPO

2 篇文章

订阅专栏

本文是LLM系列文章，针对《CodeUltraFeedback: An LLM-as-a-Judge Dataset for Aligning Large Language Models to Coding Preferences》的翻译。

CodeUltraFeedback：一个LLM即判断数据集，用于将大型语言模型与编码偏好相匹配

摘要
1 引言
2 CODEULTRAFEEDBACK
3 在CODEULTRAFEEDBACK上评估LLM
4 根据编码偏好调整LLMS
5 结果
6 讨论
7 相关工作
8 结论和相关工作

摘要

评估大型语言模型（LLM）与用户定义的编码偏好的一致性是一项具有挑战性的工作，需要评估复杂的文本LLM的输出。由于依赖于自动化指标和静态分析工具，现有的基准无法评估用户指令和LLM输出中的细微差别，这突出了对大规模数据集和LLM偏好调整基准的需求。在本文中，我们介绍了CodeUltraFeedback，这是一个由10000条复杂指令组成的偏好数据集，用于通过人工智能反馈调整LLM并使其与编码偏好保持一致。我们使用14个不同的LLM库生成对指令的响应，然后使用GPT-3.5的LLM-as-a-Juage方法，根据它们与五个编码偏好的一致性对其进行注释，从而产生数字和文本反馈。我们还介绍了CODAL Bench，这是一个评估LLM与这些编码偏好一致性的基准。我们的研究结果表明，CodeLlama7B Instruction通过使用CodeUltraFeedback的人工智能反馈数据从人工智能反馈（RLAIF）中进行强化学习与直接偏好优化（DPO）相结合，在CODAL Bench上优于34B LLM，验证了CodeUltraFeedFeedback对偏好调整的效用。此外，我们展示了与未对齐的基本模型相比，我们的DPO对齐 CodeLlama模型提高了HumanEval+上的功能正确性。因此，我们的贡献弥补了LLM对代码的偏好调整方面的差距，并为模型对齐和RLAIF对代码智能的进一步进步奠定了基础。