本文是LLM系列文章,针对《DyVal 2: Dynamic Evaluation of Large Language Models by Meta Probing Agents》的翻译。
DyVal 2:元探测代理对大型语言模型的动态评估
摘要
由于数据污染的问题,大型语言模型(LLM)的评估在社区中引起了极大的关注。现有的工作为特定任务使用定义良好的算法设计了评估协议,无法轻松扩展到不同的场景。此外,目前的评估基准只能提供总体基准结果,无法支持对LLM能力进行细粒度和多方面的分析。在本文中,我们提出了元探测代理(MPA),这是一种受心理测量学启发的通用动态评估协议,用于评估LLM。MPA是DyVal 2的关键组成部分,它自然地扩展了之前的DyVal。MPA基于三种基本认知能力:语言理解、问题解决和领域知识,根据心理测量理论,设计了探测和判断代理,将原始评估问题自动转换为新的评估问题。这些基本能力也是可动态配置的,允许进行多方面分析。我们使用MPA进行了广泛的评估,发现大多数LLM的性能较差,这表明还有改进的空间。我们的多方面分析表明,基本能力与模型大小的隐含马太效应之间存在较强的相关性,即较大的模型具有较强的能力相关性。MPA也可以用作增强LLM的数据增强方法。
1 引言
2 相关工作
3 方法
4 实验
5 基本能力的多方面分析
6 MPA作为LLM的数据增强
7 结论和讨论
本文介绍了MPA,这是一种解决数据污染的动态评估协议,并受心理测量理论的启发,对LLM的三种关键认知能力进行了深入分析。我们的实验发现揭示了几个显著的见解。至关重要的是,MPA生成的样本不仅可以作为评估工具,还可以作为一种数据增强方法改进LLM训练。我们认为,受心理测量学启发,LLM作为代理的采用代表了一个有希望的方向。
我们的工作有几个局限性。(1) 任务和数据集:我们的重点仅限于四个数据集,涵盖了一系列特定的主题。结合更广泛的数据集和任务可以对LLM功能产生更全面的见解。(2) 探测基准的有效性:虽然MPA使用法官代理来评估探测基准的一致性和准确性,但我们观察到一些问题存在差异,偏离了它们的初衷。这突出了进一步增强MPA稳健性和有效性的潜力。

本文提出了一种名为元探测代理(MPA)的动态评估协议,旨在解决大型语言模型(LLM)的评估问题。MPA受到心理测量学的启发,针对语言理解、问题解决和领域知识设计了代理,实现对LLM能力的细粒度和多方面分析。研究发现,MPA不仅能用于评估,还能作为数据增强工具提高LLM的性能。尽管存在局限性,如任务和数据集范围有限,但MPA展示了对LLM评估和训练的潜在改进作用。
263

被折叠的 条评论
为什么被折叠?



