本文是LLM系列文章,针对《DyVal 2: Dynamic Evaluation of Large Language Models by Meta Probing Agents》的翻译。
DyVal 2:元探测代理对大型语言模型的动态评估
摘要
由于数据污染的问题,大型语言模型(LLM)的评估在社区中引起了极大的关注。现有的工作为特定任务使用定义良好的算法设计了评估协议,无法轻松扩展到不同的场景。此外,目前的评估基准只能提供总体基准结果,无法支持对LLM能力进行细粒度和多方面的分析。在本文中,我们提出了元探测代理(MPA),这是一种受心理测量学启发的通用动态评估协议,用于评估LLM。MPA是DyVal 2的关键组成部分,它自然地扩展了之前的DyVal。MPA基于三种基本认知能力:语言理解、问题解决和领域知识,根据心理测量理论,设计了探测和判断代理,将原始评估问题自动转换为新的评估问题。这些基本能力也是可动态配置的,允许进行多方面分析。我们使用MPA进行了广泛的评估,发现大多数LLM的性能较差,这表明还有改进的空间。我们的多方面分析表明,基本能力与模型大小的隐含马太效应之间存在较强的相关性,即较大的模型具有较强的能力相关性。MPA也可以用作增强LLM的数据增强方法。