Evaluation Metrics in the Era of GPT-4

最新推荐文章于 2025-11-25 12:11:01 发布

UnknownBody

最新推荐文章于 2025-11-25 12:11:01 发布

阅读量447

点赞数

CC 4.0 BY-SA版权

文章标签：语言模型人工智能

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/134251258

LLM 日更专栏收录该内容

828 篇文章

已下架不支持订阅

研究发现，大型语言模型（LLM）的自动评估指标与人类判断存在差距。ChatGPT在多数指标上优于其他模型，但在经典自动评估中得分较低。此外，黄金参考的质量问题使得基于参考的比较度量可靠性下降。GPT-4在某些任务上能较好地模拟人类评估，但对于语法纠错任务的一致性较低。未来研究将关注提高评估的准确性和减少偏见。

本文是LLM系列文章，针对《Evaluation Metrics in the Era of GPT-4: Reliably Evaluating Large Language Models on Sequence to Sequence Tasks》的翻译。

摘要

大型语言模型（LLM）评估是一个不完整和不一致的领域，很明显，自动评估指标的质量没有跟上生成模型的发展步伐。我们的目标是通过在三个NLP基准上对一系列开源和闭源生成LLM进行初步和混合评估来提高对当前模型性能的理解：文本总结、文本简化和语法纠错（GEC），同时使用自动和人工评估。我们还探索了最近发布的GPT-4作为评估器的潜力。我们发现，根据人类评审员的说法，ChatGPT在大多数指标上始终优于许多其他流行模型，而在使用经典的自动评估指标时，得分要低得多。我们还发现，人类评审员对黄金参考的评价远低于最佳模型的输出，这表明许多流行基准的质量很差。最后，我们发现GPT-4能够以一种与人类判断合理紧密一致的方式对模型的输出进行排序，尽管任务有特定的变化，但在GEC任务中的一致性较低。

1 引言

2 实验设置

3 评估指标

4 结果和讨论

5 结论

模型评估是一个越来越引起社会关注的话题。梁等人最近发表了一份关于LLM的广泛评估报告，但他们大多关注自动评估。在最新LLM生成能力的最新进展的推动下，我们进行了这项研究，以探索人类判断与零样本模型性能的自动、基于参考的评估之间的漂移。我们还探索了GPT-4的模型对模型评估。这项研究是使用大型开源数据集进行的，这些数据集通常作为各自任务的基准。
我们的工作揭示了一系列生成任务中基于参考的自动度量和人类评估之间的系统性错位，突出了公共NLP基准中黄金参考的不足。目前

了解本专栏