本文是LLM系列文章,针对《LLMEval: A Preliminary Study on How to Evaluate Large Language Models》的翻译。
摘要
近年来,大型语言模型的评价已成为一个热门的研究领域。LLM评估的三个关键问题是“评估什么、在哪里以及如何评估”。然而,现有的研究主要集中在前两个问题上,基本上是在测试过程中给LLM什么任务,以及它应该处理什么样的知识。至于第三个问题,即使用什么标准、评估者的类型、如何评分和如何排名,还没有太多讨论。在本文中,我们通过比较手动和自动评估的各种标准,利用现场、众包、公共注释器和GPT4,以及不同的评分方法和排名系统,分析了评估方法。我们提出了一个新的数据集LLMEval,并对20个LLM进行了评估。共有2186人参与,生成了243337个手动注释和57511个自动评估结果。我们对不同的环境进行了比较和分析,得出了10个结论,这些结论可以为未来评估LLM提供一些见解。数据集和结果在https://github.com/llmeval上可用.
1 引言
2 设计
3 实验
4 结果
5 细节
6 相关工作
7 讨论
在我们的研究中,我们发现评估LLM最有区别的标准是信息性和准确性。今后,我们将继续在今后的评价中优先考虑这些方面。
此外,我们的研究表明,就准确性、一致性和LLM评估者之间的一致性而言,现场星级评分是最佳
本文深入探讨了如何评估大型语言模型(LLM),重点关注评估标准、环境和方法。研究发现,信息性和准确性是关键评估因素,现场星级评分在手动评估中效果最佳,而自动化评估在覆盖大量任务时具有优势。尽管如此,主观问题的评估仍存在挑战。
已下架不支持订阅
227

被折叠的 条评论
为什么被折叠?



