本文是LLM系列文章,针对《CodeUltraFeedback: An LLM-as-a-Judge Dataset for Aligning Large Language Models to Coding Preferences》的翻译。
CodeUltraFeedback:一个LLM即判断数据集,用于将大型语言模型与编码偏好相匹配
摘要
评估大型语言模型(LLM)与用户定义的编码偏好的一致性是一项具有挑战性的工作,需要评估复杂的文本LLM的输出。由于依赖于自动化指标和静态分析工具,现有的基准无法评估用户指令和LLM输出中的细微差别,这突出了对大规模数据集和LLM偏好调整基准的需求。在本文中,我们介绍了CodeUltraFeedback,这是一个由10000条复杂指令组成的偏好数据集,用于通过人工智能反馈调整LLM并使其与编码偏好保持一致。我们使用14个不同的LLM库生成对指令的响应,然后使用GPT-3.5的LLM-as-a-Juage方法,根据它们与五个编码偏好的一致性对其进行注释,从而产生数字和文本反馈。我们还介绍了CODAL Bench,这是一个评估LLM与这些编码偏好一致性的基准。我们的研究结果表明,CodeLlama7B Instruction通过使用CodeUltraFeedback的人工智能反馈数据从人工智能反馈(RLAIF)中进行强化学习与直接偏好优化(DPO)相结合,在CODAL Bench上优于34B LLM,验证了CodeUltraFeedFeedback对偏好调