Evaluation Metrics in the Era of GPT-4

828 篇文章

已下架不支持订阅

研究发现,大型语言模型(LLM)的自动评估指标与人类判断存在差距。ChatGPT在多数指标上优于其他模型,但在经典自动评估中得分较低。此外,黄金参考的质量问题使得基于参考的比较度量可靠性下降。GPT-4在某些任务上能较好地模拟人类评估,但对于语法纠错任务的一致性较低。未来研究将关注提高评估的准确性和减少偏见。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是LLM系列文章,针对《Evaluation Metrics in the Era of GPT-4: Reliably Evaluating Large Language Models on Sequence to Sequence Tasks》的翻译。

GPT-4时代的评估度量:在序列到序列的任务中可靠地评估大型语言模型

摘要

大型语言模型(LLM)评估是一个不完整和不一致的领域,很明显,自动评估指标的质量没有跟上生成模型的发展步伐。我们的目标是通过在三个NLP基准上对一系列开源和闭源生成LLM进行初步和混合评估来提高对当前模型性能的理解:文本总结、文本简化和语法纠错(GEC),同时使用自动和人工评估。我们还探索了最近发布的GPT-4作为评估器的潜力。我们发现,根据人类评审员的说法,ChatGPT在大多数指标上始终优于许多其他流行模型,而在使用经典的自动评估指标时,得分要低得多。我们还发现,人类评审员对黄金参考的评价远低于最佳模型的输出,这表明许多流行基准的质量很差。最后,我们发现GPT-4能够以一种与人类判断合理紧密一致的方式对模型的输出进行排序,尽管任务有特定的变化,但在GEC任务中的一致性较低。

1 引言

2 实验设置

3 评估指标

4 结果和讨论

5 结论

模型评估是一个越来越引起社会关注的话题。梁等人最近发表了一份关于LLM的广泛评估报告,但他们大多关注自动评估。在最新LLM生成能力的最新进展的推动下,我们进行了这项研究,以探索人类判断与

已下架不支持订阅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值