文章目录
题目
StructEval:通过结构化评估深化和拓宽大型语言模型评估
论文地址:https://arxiv.org/abs/2408.03281
项目地址:https://github.com/c-box/StructEval
摘要
评估是大型语言模型(LLM)发展的接力棒。当前的评估通常对每个原子测试目标采用单项评估范式,难以判断模型是否真正具备所需的能力,还是仅仅记住/猜测特定问题的答案。为此,本文提出了一种新颖的评估框架,称为StructEval。StructEval从原子测试目标出发,通过跨多个认知水平和关键概念进行结构化评估,深化和拓宽评估范围,从而为LLM提供全面、稳健和一致的评估。在三个广泛使用的基准测试上的实验表明,StructEval是一种可靠的工具,可以抵抗数据污染风险并减少潜在偏差的干扰,从而提供有关模型能力的更可靠和一致的结论。我们的框架还为未来设计有原则和可信赖的LLM评估协议1提供了启示。
评估是开发大型语言模型 (LLM) 的基础,它提供必要的测量、反馈和见解,有助于提高实用性、可靠性和安全性。因此,提出了各种大规模基准来评估 LLM 的能力,例如语言理解、指令遵循、推理能力。不幸的是,目前对 LLM 的评估通常采用单项评估范式,这种范式在有效性、稳健性和全面性方面仍然存在弱点。如图 1a 所示,为了评估 LLM 中的事实知识,他们将事实知识划分为一组原子测试目标(例如,苹果品种、胰岛素功能),并使用单个实例(例如,哪一个不是苹果品种)对每个目标进行评估。然而,这种单项评估范式很难辨别模型是否真正具备所需的能力,还是仅仅记住/猜测特定问题的答案。一方面,单项评估依赖于孤立实例的正确性,这对与特定实例相关的混杂因素很敏感,并且容易受到偏见或捷径的影响,因此很难辨别模型的正确响应是否源于真正的理解或仅仅是记忆(Cao et al,2021,2024)。
另一方面,LLM 训练数据和记忆容量的快速扩展增加了静态基准测试中数据污染的风险,可能导致对模型能力的评估过高。 也就是说,由于测试实例可能污染训练数据集,因此模型的真实能力可能被高估。 此外,由于基准构建所需的巨大资源,目前大多数基准测试都以静态方式评估模型。 因此,由于无法及时更新、复杂性和多样性,它们可能很快达到饱和状态。
为了应对上述挑战,先前的研究主要尝试手动构建更新、更难、更多样化的基准测试。例如,Kasai 等人;Yu 等人根据最近的新闻或文章设计了评估基准;Wang 等人在原始数据集中添加扰动来评估模型的稳健性;Hendrycks 等人;Huang 等人从人类专业考试中收集测试实例以增加难度和多样性。尽管投入了大量资源,但先前基准的单项评估范式仍然难以确定评估的表现是否能够忠实、公平地反映模型的能力。
在本文中,我们提出了一种新颖的结构化评估框架 StructEval,它可以全面、稳健和有效地评估 LLM。这是通过采用由教学理论指导的结构化评估来评估模型在多个认知水平和关键概念上针对每个测试目标的能力来实现的,而不是依赖于单个测试实例的正确性。具体来说,如图 1b 所示,StructEval 包含两个模块,分别深化和拓宽当前的评估。给定一个种子实例,第一个模块确定其底层测试目标,然后围绕该测试目标生成多个测试实例,这些实例与布鲁姆分类学中概述的六个认知水平相一致。同时,第二个模块提取回答种子问题所必须理解的关键概念,然后基于这些概念开发一系列实例基于知识图谱的评估。
与单项评估不同,对于每个测试目标,StructEval 要求 LLM 展示跨多个认知层次的知识,以及对关键概念的透彻理解,以获得良好的表现。这样,对于每个测试目标,评估结论不再由单个实例的正确性决定。因此,它不依赖于特定实例引入的混杂因素,例如提示选择、表面形式捷径、数据分布等。因此,StructEval 可以减少这些混杂因素带来的偏差的影响,为各种 LLM 提供更一致、更准确的评估结论。同时,具有数据污染的模型只能记住特定的答案,但仍然缺乏相应的结构化知识,因此,即使训练数据受到污染,StructEval 也可以稳健地提供稳定的评估结果。此外,由于 StructEval 能够自动生成大规模和高质量的实例,从而通过更新知识源实现动态评估,它还可以防止基准测试快速达到饱和。