本文是LLM系列文章,针对《Evaluation Metrics in the Era of GPT-4: Reliably Evaluating Large Language Models on Sequence to Sequence Tasks》的翻译。
摘要
大型语言模型(LLM)评估是一个不完整和不一致的领域,很明显,自动评估指标的质量没有跟上生成模型的发展步伐。我们的目标是通过在三个NLP基准上对一系列开源和闭源生成LLM进行初步和混合评估来提高对当前模型性能的理解:文本总结、文本简化和语法纠错(GEC),同时使用自动和人工评估。我们还探索了最近发布的GPT-4作为评估器的潜力。我们发现,根据人类评审员的说法,ChatGPT在大多数指标上始终优于许多其他流行模型,而在使用经典的自动评估指标时,得分要低得多。我们还发现,人类评审员对黄金参考的评价远低于最佳模型的输出,这表明许多流行基准的质量很差。最后,我们发现GPT-4能够以一种与人类判断合理紧密一致的方式对模型的输出进行排序,尽管任务有特定的变化,但在GEC任务中的一致性较低。
1 引言
2 实验设置
3 评估指标
4 结果和讨论
5 结论
模型评估是一个越来越引起社会关注的话题。梁等人最近发表了一份关于LLM的广泛评估报告,但他们大多关注自动评估。在最新LLM生成能力的最新进展的推动下,我们进行了这项研究,以探索人类判断与