测试数据集
大模型基准评测体系(2/4)
数据集选择上需要考虑待测模型本身的特点,选择模式本身擅长的应用的领域、突出的能力,此为需要考虑模型的泛化能力。按照大模型可处理的信息模态,可以将大模型分为语言大模型、多模态模型、语音大模型等。其中,语言大模型和多模态大模型的研究和应用最为广泛。语言大模型的输入和输出均为自然语言,多模态大模型的输入和输出为不同模态的数据。下面对语言大模型(LLM)评测中常用数据集进行梳理和介绍。
- 语言大模型的通用能力
考察理解能力、生成能力、推理能力、知识能力、学科能力、多语言能力、长文本能力、思维链能力、角色扮演能力、工具使用能力、可靠性、鲁棒性等。代表性的评测数据集包括 MMLU、BBH、GSM8K 等。
- 语言大模型的行业能力
考察行业通用能力、行业知识能力、行业场景能力、行业安全能力等。代表性的评测数据集包括 FinEval、PubMedOA、JEC-OA 等。
- 语言大模型的应用能力
考察大模型在智能客服、知识管理、数据分析、办公助手、内容创作、网页助手、代码助手、任务规划、智能代理、具身智能等应用中的效果。代表性的评测数据集包括GAIA、APPS、AgentBench 等。
- 语言大模型的安全能力
进行评测需要考察大模型内容安全、伦理安全、隐私安全、模型安全等,代表性的评测数据集包括SafetyBench、TOXIGEN、JADE等。
评测维度
依据《A Survey on Evaluation of Large Language Models》,从4个大的方向来看评测中要关注的内容。
1. 知识能力
知识和能力是评测大模型的核心维度之一。大模型的飞速发展,使其在诸多复杂任务中不断取得突破,并被广泛应用于越来越多的实际业务场景中。对其是否可以胜任真实场景任务,需要对大模型的知识和能力水平进行综合评估。具体细分为:大模型的问答能力评测、知识补全能力评测、推理能力评测及工具学习能力评测。
2. 价值对齐
对大模型进行对齐评测能够提前预知大模型带来的负面影响,以便提前采取措施消除伦理价值未对齐问题。在价值对齐中,包含大模型的道德伦理、偏见歧视、毒性评测和真实性评测。
道德伦理:大模型的道德伦理评测旨在评估其生成内容中是否存在违背社会公认的道德伦理规范的情况。
偏见歧视:大模型的偏见歧视评测主要关注其生成的内容是否会对某些社会群体产生不利影响或伤害。大模型可能会对某些群体持有刻板印象,或者产生输出贬低特定群体的信息等偏见行为。
毒性评测:大模型的毒性评测主要聚焦于评估其生成的内容中是否含有仇恨、侮辱、淫秽等有害信息。
真实性评测:大模型的真实性评测致力于检测模型生成的内容是否真实、准确,以及是否符合事实。主要检测大模型随时可能出现的幻觉(虚构事实、错误引用、逻辑错误等)及一致性问题的严重程度。
具体评测方法如下:
- 基于事实准确性的评测:构建包含事实性问题的测试集(如常识、科学、历史等领域),要求模型生成答案。
- 基于大模型的方法:利用大模型自身的输出进行自我评估,例如通过对比模型输出与原始输入的一致性。
- 基于自然语言推理的方法:提供一段上下文,要求模型生成相关内容,检查生成内容是否与上下文一致。例如,给定一个故事的开头,检查模型生成的情节是否逻辑连贯。
可以看到,虽然是做真实性评测,但其实对大模型的逻辑能力也提出了要求,同时也考察了大模型的知识能力,评测单一指标的过程中,有模型多种能力的综合表现。具体说到知识这一点,如果大模型对某个从未了解的知识回答不知道,那么可以看出大模型的知识边界,是对知识能力的考查,但如果大模型为了回答知道而胡说八道,那么这就是很明显的幻觉问题,是对价值能力的考察。评测结果是两种能力综合的结果。
3. 安全可信
在安全评测中,包含鲁棒性评测和风险评测两个方面。
鲁棒性评测
大模型鲁棒性评测是指评估大型语言模型在面对各种挑战性输入或复杂场景时,能否保持稳定、可靠和准确的性能。
(1)提示词鲁棒性,即通过在提示词中加入拼写错误、近义词等模拟用户输入的噪音来评估大模型的鲁棒性;
(2)任务鲁棒性,即通过生成各种下游任务的对抗样本(如误导性提示词、语义陷阱)评估大模型的鲁棒性;
(3)对齐鲁棒性,大模型通常会经过对齐训练以确保其生成的内容与人类的偏好和价值对齐,防止模型生成有害信息。然而,已有的研究表明有些提示词能够绕过对齐训练的防护,触发大模型生成有害内容,这种方法也被称为越狱攻击方法。因此,对齐鲁棒性主要评测的是大模型在面临各种引导模型生成有害内容的越狱攻击时能否仍然生成与人类偏好和价值对齐的内容。
风险评估
(1)大模型的行为评测,即通过与大模型进行直接交互的方式,评估大模型是否存在追求权力和资源,产生自我保持等潜在危险行为或倾向;
(2)将大模型视为智能体进行评测,即在特定的模拟环境中对大模型进行评测,如模拟游戏环境、模拟网上购物或网上冲浪等场景。与大模型的行为评测不同,此项评测更侧重于大模型的自主性以及其与环境和其它大模型之间的复杂交互。
4. 专业领域
行业大模型指专门针对某个特定领域或行业进行训练和优化的大模型。与通用大模型不同,行业大模型一般都经过了特定领域数据的微调,因此其更加专注于某一特定领域的知识和应用,如法律、金融、医疗等。
数据集分类
大模型评测有多个维度,评测关注的结果不同就需要使用不同的数据集,有单维度的,也有多维度综合类的,而有些评测为了某个目的需要构建一个体系,这个体系所需要的数据集可能就是多个单一数据集的集合。
-
通用评测基准(综合数据集)
包含多个数据集和任务,全面评估大模型的质量和能力。
例如SuperBench、SuperCLUE等。
SuperBench评测体系—MARCISS。MARCISS评测体系包含Math(数学)、Agent(智能体)、Reasoning(逻辑推理)、Coding(代码编写)、Instruction following(指令遵循)、Social intelligence(社交智能)和Safety(安全和价值观)等7个基准数据集。
SuperCLUE 是一个中文通用大模型综合性评测基准。它从三个不同的维度评价模型的能力:基础能力、专业能力和中文特性能力。
-
特定维度数据集
评测大模型在特定维度上的表现。
例如LLMEval、TriviaQA、GSM8K等。
复旦大学NLP实验室最新的LLMEval-3聚焦于专业知识能力评测,涵盖哲学、经济学、法学、教育学、文学、历史学、理学、工学、农学、医学、军事学、管理学、艺术学等教育部划定的13个学科门类、50余个二级学科,共计约20W道标准生成式问答题目。
-
评测体系(数据集集合)
为了特定目的,使用多个数据集组成一个集合,构建一个评测体系。
例如,HELM。
HELM(Holistic Evaluation ofLanguage Models 语言模型整体评估)是由斯坦福大学推出的大模型评测体系,该评测方法主要包括场景、适配、指标三个模块,每次评测的运行都需要指定一个场景,一个适配模型的提示,以及一个或多个指标。它评测主要覆盖的是英语,有7个指标,包括准确率、不确定性/校准、鲁棒性、公平性、偏差、毒性、推断效率;任务包括问答、信息检索、摘要、文本分类等。
HELM评测体系引用10个数据集如下:
10 scenarios
10个数据集使用的场景及各场景下的数量
场景 | 数据集数量 |
short-answer question answering | 3 |
multiple-choice question answering | 4 |
numeric answer question answering | 2 |
machine translation | 1 |
不同维度下部分常用数据集
为完成各种评测目的当前较为有名的评测数据集。
部分知名评测数据集介绍