好的,评估大语言模型是一个多维度、复杂的系统工程,通常没有一个“万能指标”,而是需要根据具体任务和关注点来选择一组指标。总的来说,评估体系可以分为两大类: 客观评估 和 主观评估。
一、客观评估
这类评估基于预定义的、有标准答案的数据集,可以进行量化比较。
1. 基础语言建模能力指标
- 困惑度:这是最重要的内在评估指标之一。它衡量模型对一组数据(如测试文本)的预测能力。困惑度越低,说明模型对语言的建模越好,越不“困惑”。它是基于交叉熵计算的。但困惑度的下降并不总是与下游任务(如翻译、问答)的性能提升直接挂钩。
2. 常见下游任务指标
这些指标用于评估模型在特定任务上的表现,通常需要在标准基准数据集上进行测试。
- 准确率:适用于分类任务(如情感分析、主题分类)。即预测正确的样本数占总样本数的比例。
- F1分数:特别适用于类别不均衡的分类任务。它是精确率(预测为正例中真正为正例的比例)和召回率(真正为正例中被预测正确的比例)的调和平均数。
- 精确匹配:常用于问答和阅读理解任务。指模型的预测答案与标准答案完全一致的比例。这个指标比较严格。
- BLEU:主要用于机器翻译评估。通过计算机器翻译结果与专业人工翻译结果之间的n-gram重合度来评分。
- ROUGE:主要用于文本摘要评估。它通过计算重叠的n-gram、词序和最长公共子序列等来评估摘要质量。
- 代码相关指标:评估代码生成能力。
- Pass@k:在给定n个编程问题时,模型生成的代码能通过单元测试的比例。通常生成k个候选答案(k>1),只要有一个通过即算成功。
3. 效率指标
对于实际应用至关重要。
- 推理速度:通常用每秒生成的令牌数来衡量。
- 吞吐量:在批处理模式下,单位时间内可以处理的总令牌数。
- 延迟:从输入请求到收到第一个令牌的时间。
- 显存占用:模型推理时需要消耗的GPU显存大小。
二、主观评估
由于LLM的生成内容灵活多样,很多方面无法用标准答案来衡量,因此主观评估(尤其是人工评估)至关重要。
- 人工评估:聘请评估人员对模型的输出进行打分。通常评估以下几个维度:
- 相关性:输出内容是否与输入问题/指令相关。
- 流畅性:输出文本是否通顺、符合语法。
- 忠实度:输出内容是否基于给定的上下文(是否存在“幻觉”或虚构事实)。
- 有害性:输出是否包含偏见、歧视、暴力或其他不安全内容。
- 帮助性:输出是否真正解决了用户的问题,是否有用。
三、综合性基准评测
为了全面、公平地比较不同模型的能力,业界开发了多个综合性的评测基准,它们将多个任务和数据集打包在一起。
- MMLU:涵盖57个科目(从初等数学到专业法律、医学)的英文多项选择题基准,用于评估模型的广度和世界知识。
- GSM8K:专注于小学数学应用题,考验模型的数学推理能力。
- HumanEval 和 MBPP:代码生成基准,通过单元测试来评估模型生成功能性Python代码的能力。
- BIG-Bench Hard:一系列对人类来说都很困难的任务,用于挑战模型的极限推理能力。
- C-Eval 和 AGIEval:针对中文语境和高考、资格考试等设计的中文综合能力评估基准。
- HELM:一个非常全面的评估框架,旨在在标准条件下对语言模型进行整体评估,涵盖多个场景、指标和模型。
总结
| 评估维度 | 核心指标/方法 | 适用场景 |
|---|---|---|
| 内在语言能力 | 困惑度 | 预训练阶段,衡量基础语言建模质量 |
| 特定任务性能 | 准确率、F1、EM、BLEU、ROUGE、Pass@k | 评估模型在翻译、摘要、问答、代码生成等任务上的效果 |
| 综合能力排名 | MMLU, GSM8K, C-Eval, HELM 等基准 | 横向比较不同模型的整体能力强弱 |
| 生成质量与安全 | 人工评估(相关性、流畅性、忠实度、有害性) | 评估生成内容的实用性、可靠性和安全性 |
| 工业应用可行性 | 延迟、吞吐量、显存占用 | 决定模型能否投入实际生产环境 |
在实际工作中,通常会结合使用多种指标和基准,从不同角度对模型进行全面评估,以得出更可靠的结论。


被折叠的 条评论
为什么被折叠?



