RE-EVALUATING OPEN-ENDED EVALUATION OF LARGE LANGUAGE MODELS-优快云博客

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/146035978

摘要

传统的评估方式主要聚焦于针对特定技能对候选对象进行排名。而诸如大语言模型（LLMs）这样的现代通用模型，显然超越了这种范式。开放式评估系统应运而生，在该系统中，候选模型会依据用户提交的提示进行比较，成为了一种流行的解决方案。尽管开放式评估系统有诸多优点，但我们发现，当前基于Elo的评分系统由于对冗余信息敏感，可能会受到数据中有意或无意偏差的影响，甚至会强化这些偏差。为了解决这个问题，我们将评估视为一个三方博弈，并引入了新的博弈论解决方案，以确保对冗余信息具有鲁棒性。我们的方法能得出直观的评分，并有助于深入了解大语言模型开发的竞争格局。

引言

我们只有先进行衡量，才能实现改进。然而，由于大语言模型（LLMs）的能力广泛且深入，衡量其性能已成为一项颇具挑战性的任务。在现实世界中构建基准测试成本高昂，越来越需要人类领域专家的反馈（Hendrycks等人，2021；Rein等人，2023）。合成基准测试虽有一定帮助，但其与现实世界性能的相关性尚不明晰（Zhang等人，2024；Hsieh等人，2024）。静态基准测试中一个更为棘手的问题是测试集污染现象，尽管人们努力预防，但这一问题仍难以避免（Golchin和Surdeanu，2024；Balloccu等人，2024；Palavalli等人，2024）。随着前沿模型变得越来越通用，试图用定义狭窄的静态基准测试来列举感兴趣的技能，从一开始就困难重重。

因此，大语言模型评估的一个新兴趋势是依赖开放式评估系统，LMSYS Chatbot Arena（Chiang等人，2024）就是一个典型例子。在这样的系统中，用户提交感兴趣的提示，每个模型会根据它们在所有提示上的相互比较结果获得一个Elo分数（E