PROMETHEUS: INDUCING FINE-GRAINED EVALUATION CAPABILITY IN LANGUAGE MODELS

最新推荐文章于 2025-11-25 12:11:01 发布

UnknownBody

最新推荐文章于 2025-11-25 12:11:01 发布

阅读量217

点赞数

CC 4.0 BY-SA版权

文章标签： prometheus 语言模型人工智能

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/134333032

LLM 日更专栏收录该内容

828 篇文章

已下架不支持订阅

本文介绍了PROMETHEUS，一个开源的大型语言模型，能根据用户自定义评分标准对长文本进行评估。通过FEEDBACK COLLECTION数据集训练，PROMETHEUS在多项评估中与GPT-4表现相当，且在人类偏好基准上表现出高准确性，有望成为通用奖励模型。

本文是LLM系列文章，针对《PROMETHEUS: INDUCING FINE-GRAINED EVALUATION CAPABILITY IN LANGUAGE MODELS》的翻译。

摘要

最近，使用强大的专有大型语言模型（LLM）（例如GPT4）作为长格式响应的评估器已成为事实上的标准。然而，对于具有大规模评估任务和考虑自定义标准（例如，儿童可读性）的从业者来说，使用专有LLM作为评估器是不可靠的，因为它具有封闭的源代码性质、不受控制的版本控制和高昂的成本。在这项工作中，我们提出了PROMETHEUS，这是一种完全开源的LLM，当附带适当的参考材料（参考答案、评分标准）时，它与GPT-4的评估能力不相上下。我们首先构建了FEEDBACK COLLECTION，这是一个新的数据集，由1K个细粒度评分准则、20K条指令以及GPT-4生成的100K个响应和语言反馈组成。使用反馈集合，我们训练PROMETHEUS，一种13B评估器LLM，可以根据用户提供的自定义评分标准评估任何给定的长文本。实验结果表明，PROMETHEUS在使用45个自定义评分标准进行评估时，与人类评估者的Pearson相关性为0.897，与GPT-4（0.882）持平，大大优于ChatGPT（0.392）。此外，在四个基准（MT Bench、Vicuna Bench、Feedback Bench、Flask Eval）中，用1222个定制的评分标准测量与GPT-4的相关性显示出类似的趋势，增强了PROMETHEUS作为评估LLM的能力。最后，与在人类偏好数据集上明确训练的开源奖励模型相比，PROMETHEUS在两个人类偏好基准（HHH比对和MT Bench人类判断）上实现了最高的准确性，突出了其作为通用奖励模型的潜力。我们开源我们的代码、数据集和模型。