本文是LLM系列文章,针对《metabench A Sparse Benchmark to Measure General Ability in Large Language Models》的翻译。
摘要
大型语言模型 (LLM) 在一系列任务上的能力各不相同。Open LLM Leaderboard 等举措旨在通过几个大型基准(LLM 可以正确或错误地响应的测试项目集)来量化这些差异。然而,基准分数内部和之间的高度相关性表明 (1) 这些基准衡量存在一小部分共同的潜在能力,并且 (2) 项目利用了冗余信息,因此基准可能会被大大压缩。我们使用来自 n > 5000 个 LLM 的数据来确定 ARC、GSM8K、HellaSwag、MMLU、TruthfulQA 和 WinoGrande 这六个基准中信息量最大的项目(d = 28,总共 632 个项目)。从中,我们提炼出一个稀疏基准测试 metabench,它的大小不到所有六个基准测试原始大小之和的 3%。这个新的稀疏基准测试通过生成基础基准特定能力的估计器来超越分数。我们表明,这些估计量 (1) 可用于重建平均为 1.5% 均方根误差 (RMSE) 的每个原始单独基准分数,(2) 以 0.8% RMSE 重建原始总分,以及 (3) 具有单个潜在公因数,其 Spearman 与总分的相关性为 r = 0.93。
1 引言
2 基准蒸馏
3 结论
本研究中提出的研究结果强调了使用稀疏基准 metabench 来衡量大型语言模型 (LLM) 能力的可行性和优势。成功地将六个著名的基准测试(ARC、GSM8K、HellaSwag、MMLU、TruthfulQA 和 WinoGrande)蒸馏成更小的项目集,同时将信息损失降至最低。通过识别和利用信息量最大的项目,meta

订阅专栏 解锁全文

4293

被折叠的 条评论
为什么被折叠?



