本文是LLM系列文章,针对《Beyond Probabilities: Unveiling the Misalignment in Evaluating Large Language Models》的翻译。
摘要
大型语言模型(LLM)在各种应用程序中表现出了非凡的能力,从根本上重塑了自然语言处理(NLP)研究的格局。然而,最近的评估框架通常依赖LLM的输出概率进行预测,这主要是由于计算限制,与现实世界的LLM使用场景不同。尽管这些基于概率的评估策略被广泛使用,但其有效性仍然是一个悬而未决的研究问题。本研究旨在在使用LLM进行多项选择题(MCQ)的背景下,仔细审查这种基于概率的评估方法的有效性,强调其固有的局限性。我们的实证研究表明,流行的基于概率的评估方法与基于生成的预测不完全一致。此外,由于计算限制,当前的评估框架通常通过基于输出概率的预测任务来评估LLM,而不是直接生成响应。我们说明了这些基于概率的方法不能有效地与生成预测相对应。我们的研究结果可以增强对LLM评估方法的理解,并为该领域的未来研究提供见解。
1 引言
2 评估大语言模型
3 经验证据
4 向前推进
5 相关工作
6 结论
这项工作严格检查了LLM基于概率的评估方法与其在生成文本方面的实际性能之间的一致性,特别是在MMLU、TruthfulQA和Belebele等基