本文是LLM系列文章,针对《PROMETHEUS: INDUCING FINE-GRAINED EVALUATION CAPABILITY IN LANGUAGE MODELS》的翻译。
摘要
最近,使用强大的专有大型语言模型(LLM)(例如GPT4)作为长格式响应的评估器已成为事实上的标准。然而,对于具有大规模评估任务和考虑自定义标准(例如,儿童可读性)的从业者来说,使用专有LLM作为评估器是不可靠的,因为它具有封闭的源代码性质、不受控制的版本控制和高昂的成本。在这项工作中,我们提出了PROMETHEUS,这是一种完全开源的LLM,当附带适当的参考材料(参考答案、评分标准)时,它与GPT-4的评估能力不相上下。我们首先构建了FEEDBACK COLLECTION,这是一个新的数据集,由1K个细粒度评分准则、20K条指令以及GPT-4生成的100K个响应和语言反馈组成。使用反馈集合,我们训练PROMETHEUS,一种13B评估器LLM,可以根据用户提供的自定义评分标准评估任何给定的长文本。实验结果表明,PROMETHEUS在使用45个自定义评分标准进行评估时,与人类评估者的Pearson相关性为0.897,与GPT-4(0.882)持平,大大优于ChatGPT(0.392)。此外,在四个基准(MT Bench、Vicuna Bench、Feedback Bench、Flask Eval)中,用1222个定制的评分标准测量与GPT-4的相关性显示出类似的趋势,增强了PROMETHEUS作为评估LLM的能力。最后,与在人类偏好数据集上明确训练的开源奖励模型相比,PROMETHEUS在两个人类偏好基准(HHH比对和MT Bench人类判断)上实现了最高的准确性,突出了其作为通用奖励模型的潜力。我们开源我们的代码、数据集和模型。
本文介绍了PROMETHEUS,一个开源的大型语言模型,能根据用户自定义评分标准对长文本进行评估。通过FEEDBACK COLLECTION数据集训练,PROMETHEUS在多项评估中与GPT-4表现相当,且在人类偏好基准上表现出高准确性,有望成为通用奖励模型。
已下架不支持订阅

3412

被折叠的 条评论
为什么被折叠?



