CodeUltraFeedback An LLM-as-a-Judge Dataset for Aligning Large Language Models to Coding Preferences

本文是LLM系列文章,针对《CodeUltraFeedback: An LLM-as-a-Judge Dataset for Aligning Large Language Models to Coding Preferences》的翻译。

CodeUltraFeedback:一个LLM即判断数据集,用于将大型语言模型与编码偏好相匹配

摘要

评估大型语言模型(LLM)与用户定义的编码偏好的一致性是一项具有挑战性的工作,需要评估复杂的文本LLM的输出。由于依赖于自动化指标和静态分析工具,现有的基准无法评估用户指令和LLM输出中的细微差别,这突出了对大规模数据集和LLM偏好调整基准的需求。在本文中,我们介绍了CodeUltraFeedback,这是一个由10000条复杂指令组成的偏好数据集,用于通过人工智能反馈调整LLM并使其与编码偏好保持一致。我们使用14个不同的LLM库生成对指令的响应,然后使用GPT-3.5的LLM-as-a-Juage方法,根据它们与五个编码偏好的一致性对其进行注释,从而产生数字和文本反馈。我们还介绍了CODAL Bench,这是一个评估LLM与这些编码偏好一致性的基准。我们的研究结果表明,CodeLlama7B Instruction通过使用CodeUltraFeedback的人工智能反馈数据从人工智能反馈(RLAIF)中进行强化学习与直接偏好优化(DPO)相结合,在CODAL Bench上优于34B LLM,验证了CodeUltraFeedFeedback对偏好调

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值