A Survey on Evaluation of Large Language Models

UnknownBody

已于 2023-07-10 10:32:32 修改

阅读量2.1k

点赞数 2

CC 4.0 BY-SA版权

分类专栏： Survey Paper 文章标签：语言模型人工智能自然语言处理

于 2023-07-07 16:59:49 首次发布

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/131595335

Survey Paper 同时被 2 个专栏收录

275 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

LLM 日更

828 篇文章

已下架不支持订阅

这是LLM相关的系列文章，针对《A Survey on Evaluation of Large Language Models》的翻译。

摘要

大型语言模型（LLM）由于其在各种应用中前所未有的性能，在学术界和工业界都越来越受欢迎。随着LLM在研究和日常使用中继续发挥重要作用，其评估变得越来越重要，不仅在任务层面，而且在社会层面，以更好地了解其潜在风险。在过去的几年里，我们做出了重大努力，从不同的角度来调研LLM。本文对LLM的这些评估方法进行了全面的回顾，重点关注三个关键维度：评估什么、在哪里评估以及如何评估。首先，我们从评估任务的角度进行了概述，包括一般的自然语言处理任务、推理、医学使用、伦理、教育、自然科学和社会科学、代理应用和其他领域。其次，我们通过深入研究评估方法和基准来回答“在哪里”和“如何”的问题，这些方法和基准是评估LLM绩效的关键组成部分。然后，我们总结了LLM在不同任务中的成功和失败案例。最后，我们阐明了LLM评估未来面临的几个挑战。我们的目标是为LLM评估领域的研究人员提供宝贵的见解，从而帮助开发更熟练的LLM。我们的重点是，评估应被视为一门基本学科，以更好地帮助LLM的发展。我们将一致地相关开源材料保存在：https://github.com/MLGroupJLU/LLM-eval-survey.

1 引言

理解智能的本质并确定机器是否体现了它，这对科学家来说是一个令人信服的问题。人们普遍认为，真实的智力使我们具备推理能力，使我们能够检验假设，并为未来的可能发生做好准备。特别是，人工智能（AI）研究人员专注于基于机器的智能的发展，而不是基于生物的智能。正确的测量有助于理解智力。例如，衡量人类个体的一般智力通常包括智商测试。