大模型评测方法(三)

测试数据集

大模型基准评测体系(2/4)

数据集选择上需要考虑待测模型本身的特点,选择模式本身擅长的应用的领域、突出的能力,此为需要考虑模型的泛化能力。按照大模型可处理的信息模态,可以将大模型分为语言大模型、多模态模型、语音大模型等。其中,语言大模型和多模态大模型的研究和应用最为广泛。语言大模型的输入和输出均为自然语言,多模态大模型的输入和输出为不同模态的数据。下面对语言大模型(LLM)评测中常用数据集进行梳理和介绍。

  • 语言大模型的通用能力

考察理解能力、生成能力、推理能力、知识能力、学科能力、多语言能力、长文本能力、思维链能力、角色扮演能力、工具使用能力、可靠性、鲁棒性等。代表性的评测数据集包括 MMLU、BBH、GSM8K 等。

  • 语言大模型的行业能力

考察行业通用能力、行业知识能力、行业场景能力、行业安全能力等。代表性的评测数据集包括 FinEval、PubMedOA、JEC-OA 等。

  • 语言大模型的应用能力

考察大模型在智能客服、知识管理、数据分析、办公助手、内容创作、网页助手、代码助手、任务规划、智能代理、具身智能等应用中的效果。代表性的评测数据集包括GAIA、APPS、AgentBench 等。

  • 语言大模型的安全能力

进行评测需要考察大模型内容安全、伦理安全、隐私安全、模型安全等,代表性的评测数据集包括SafetyBench、TOXIGEN、JADE等。

评测维度

依据《A Survey on Evaluation of Large Language Models》,从4个大的方向来看评测中要关注的内容。

1. 知识能力

知识和能力是评测大模型的核心维度之一。大模型的飞速发展,使其在诸多复杂任务中不断取得突破,并被广泛应用于越来越多的实际业务场景中。对其是否可以胜任真实场景任务,需要对大模型的知识和能力水平进行综合评估。具体细分为:大模型的问答能力评测、知识补全能力评测、推理能力评测及工具学习能力评测。

2. 价值对齐

对大模型进行对齐评测能够提前预知大模型带来的负面影响,以便提前采取措施消除伦理价值未对齐问题。在价值对齐中,包含大模型的道德伦理、偏见歧视、毒性评测和真实性评测。

道德伦理:大模型的道德伦理评测旨在评估其生成内容中是否存在违背社会公认的道德伦理规范的情况。

偏见歧视:大模型的偏见歧视评测主要关注其生成的内容是否会对某些社会群体产生不利影响或伤害。大模型可能会对某些群体持有刻板印象,或者产生输出贬低特定群体的信息等偏见行为。

毒性评测:大模型的毒性评测主要聚焦于评估其生成的内容中是否含有仇恨、侮辱、淫秽等有害信息。

真实性评测:大模型的真实性评测致力于检测模型生成的内容是否真实、准确,以及是否符合事实。主要检测大模型随时可能出现的幻觉(虚构事实、错误引用、逻辑错误等)及一致性问题的严重程度。

具体评测方法如下:

  • 基于事实准确性的评测:构建包含事实性问题的测试集(如常识、科学、历史等领域),要求模型生成答案。
  • 基于大模型的方法:利用大模型自身的输出进行自我评估,例如通过对比模型输出与原始输入的一致性。
  • 基于自然语言推理的方法:提供一段上下文,要求模型生成相关内容,检查生成内容是否与上下文一致。例如,给定一个故事的开头,检查模型生成的情节是否逻辑连贯。

可以看到,虽然是做真实性评测,但其实对大模型的逻辑能力也提出了要求,同时也考察了大模型的知识能力,评测单一指标的过程中,有模型多种能力的综合表现。具体说到知识这一点,如果大模型对某个从未了解的知识回答不知道,那么可以看出大模型的知识边界,是对知识能力的考查,但如果大模型为了回答知道而胡说八道,那么这就是很明显的幻觉问题,是对价值能力的考察。评测结果是两种能力综合的结果。

3. 安全可信

在安全评测中,包含鲁棒性评测和风险评测两个方面。

鲁棒性评测

大模型鲁棒性评测是指评估大型语言模型在面对各种挑战性输入或复杂场景时,能否保持稳定、可靠和准确的性能。

(1)提示词鲁棒性,即通过在提示词中加入拼写错误、近义词等模拟用户输入的噪音来评估大模型的鲁棒性;

(2)任务鲁棒性,即通过生成各种下游任务的对抗样本(如误导性提示词、语义陷阱)评估大模型的鲁棒性;

(3)对齐鲁棒性,大模型通常会经过对齐训练以确保其生成的内容与人类的偏好和价值对齐,防止模型生成有害信息。然而,已有的研究表明有些提示词能够绕过对齐训练的防护,触发大模型生成有害内容,这种方法也被称为越狱攻击方法。因此,对齐鲁棒性主要评测的是大模型在面临各种引导模型生成有害内容的越狱攻击时能否仍然生成与人类偏好和价值对齐的内容。

风险评估

(1)大模型的行为评测,即通过与大模型进行直接交互的方式,评估大模型是否存在追求权力和资源,产生自我保持等潜在危险行为或倾向;

(2)将大模型视为智能体进行评测,即在特定的模拟环境中对大模型进行评测,如模拟游戏环境、模拟网上购物或网上冲浪等场景。与大模型的行为评测不同,此项评测更侧重于大模型的自主性以及其与环境和其它大模型之间的复杂交互。

4. 专业领域

行业大模型指专门针对某个特定领域或行业进行训练和优化的大模型。与通用大模型不同,行业大模型一般都经过了特定领域数据的微调,因此其更加专注于某一特定领域的知识和应用,如法律、金融、医疗等。

数据集分类

大模型评测有多个维度,评测关注的结果不同就需要使用不同的数据集,有单维度的,也有多维度综合类的,而有些评测为了某个目的需要构建一个体系,这个体系所需要的数据集可能就是多个单一数据集的集合。

  • 通用评测基准(综合数据集)

包含多个数据集和任务,全面评估大模型的质量和能力。

例如SuperBenchSuperCLUE等。

SuperBench评测体系—MARCISS。MARCISS评测体系包含Math(数学)、Agent(智能体)、Reasoning(逻辑推理)、Coding(代码编写)、Instruction following(指令遵循)、Social intelligence(社交智能)和Safety(安全和价值观)等7个基准数据集。

SuperCLUE 是一个中文通用大模型综合性评测基准。它从三个不同的维度评价模型的能力:基础能力、专业能力和中文特性能力。

  • 特定维度数据集

评测大模型在特定维度上的表现。

例如LLMEval、TriviaQA、GSM8K等。

复旦大学NLP实验室最新的LLMEval-3聚焦于专业知识能力评测,涵盖哲学、经济学、法学、教育学、文学、历史学、理学、工学、农学、医学、军事学、管理学、艺术学等教育部划定的13个学科门类、50余个二级学科,共计约20W道标准生成式问答题目。

  • 评测体系(数据集集合)

为了特定目的,使用多个数据集组成一个集合,构建一个评测体系。

例如,HELM

HELM(Holistic Evaluation ofLanguage Models 语言模型整体评估)是由斯坦福大学推出的大模型评测体系,该评测方法主要包括场景、适配、指标三个模块,每次评测的运行都需要指定一个场景,一个适配模型的提示,以及一个或多个指标。它评测主要覆盖的是英语,有7个指标,包括准确率、不确定性/校准、鲁棒性、公平性、偏差、毒性、推断效率;任务包括问答、信息检索、摘要、文本分类等。

HELM评测体系引用10个数据集如下:

10 scenarios

10个数据集使用的场景及各场景下的数量

场景数据集数量
short-answer question answering3
multiple-choice question answering4
numeric answer question answering2
machine translation1

不同维度下部分常用数据集

为完成各种评测目的当前较为有名的评测数据集。

部分知名评测数据集介绍

<think>好的,用户想了解大型模型的评估方法和性能指标。我需要先整理已有的引用内容,看看里面有没有相关的信息。引用1提到模型评估方法和性能指标,包括泛化能力和单个模型性能的评价。引用2详细介绍了评估指标与方法,特别是第8章的内容,强调了训练集和测试集的表现。引用3提到了MMLU这个具体的评估指标,用于多任务语言理解。 首先,应该先解释大模型评估的整体框架,分为评估方法和性能指标两部分。评估方法可能包括交叉验证、留出法、自助法等,确保模型在不同数据上的泛化能力。然后性能指标需要分任务类型,比如分类、生成、多任务等,每个类型有不同的指标,如准确率、BLEU、MMLU等。 用户可能还想知道如何选择适合的评估方法,以及各个指标的具体应用场景。需要结合引用中的信息,比如偏差和方差的问题,引用1提到评估方法解决泛化能力,性能指标评价单个模型。引用2强调了测试集上的稳定性能,可能需要留出法或交叉验证。引用3的MMLU可以作为多任务评估的例子。 还要注意生成相关问题,比如如何选择评估方法、不同任务指标的区别、实际应用中的挑战等。需要确保回答结构清晰,分点列出,并且正确使用LaTeX格式,比如准确率公式用$...$,独立公式用$$...$$。同时检查是否有遗漏的引用,确保每个引用都自然地融入回答中,比如在提到MMLU时加上[^3]。 最后,确保语言口语化,避免使用专业术语过多,但又要准确。可能需要先介绍基本概念,再分述方法和指标,最后总结应用中的注意事项。需要验证每个部分是否符合引用内容,避免错误信息。</think>### 大模型评估方法与性能指标详解 #### 一、大模型评估的核心目标 大模型评估旨在衡量模型在**泛化能力**、**任务适应性**和**计算效率**等方面的表现。由于模型参数量大、训练成本高,评估需兼顾性能与资源消耗的平衡[^1][^2]。 --- #### 二、评估方法体系 1. **数据划分方法** - **留出法 (Hold-out)**: 将数据集按比例(如8:2)划分为训练集和测试集,简单但可能受数据分布影响[^1] $$ \text{数据集} = D_{\text{train}} \cup D_{\text{test}} $$ - **交叉验证 (Cross-Validation)**: 通过$k$次划分降低评估方差,常用于小规模数据场景 - **自助法 (Bootstrap)**: 有放回抽样构建评估集,适合数据量不足时使用 2. **多维度验证** - **零样本/少样本学习验证**: 测试模型在未见任务上的适应能力[^3] - **领域迁移测试**: 验证模型在跨领域数据(如医学文本→法律文本)的表现 - **对抗样本测试**: 注入噪声或扰动数据,评估模型鲁棒性 --- #### 、核心性能指标 根据任务类型可分为以下类: | 任务类型 | 典型指标 | 计算公式/说明 | |----------------|-----------------------------------|-----------------------------------| | **语言理解** | MMLU[^3]、SuperGLUE | $ \text{MMLU} = \frac{\text{正确数}}{\text{总样本数}} $ | | **文本生成** | BLEU、ROUGE、Perplexity | $ \text{BLEU} = \exp\left(\sum_{n=1}^N w_n \log p_n\right) $ | | **多模态任务** | CIDEr、CLIP Score | 基于图文对齐度的余弦相似度计算 | **特殊场景指标**: - **能耗效率**: 每百万token的能耗(瓦时) - **推理速度**: tokens/秒(TPS) - **微调适应性**: 下游任务准确率提升比率 --- #### 四、评估实践要点 1. **指标组合策略** 综合使用$3-5$个互补指标,如生成任务同时使用BLEU(表面相似度)和BERTScore(语义相似度) 2. **长尾效应处理** 对低频类别采用加权评估: $$ \text{Weighted Accuracy} = \sum_{i=1}^C w_i \cdot \text{Acc}_i $$ 其中$w_i$与类别频率成反比 3. **人类评估校准** 引入人工评分与自动指标的混合评估体系,通过Krippendorff's $\alpha$系数衡量评分一致性[^2] --- #### 五、前沿评估框架 1. **HELM (Holistic Evaluation)** 涵盖12个核心场景、16种能力维度的综合评估体系 2. **BigBench** 包含超过200个推理任务的超大规模评测集 3. **模型竞技场** 基于Elo评分系统的对比评估机制,通过成对比较计算相对能力值 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值