浅谈大模型评估_大模型生成ui测试脚本的评价指标-优快云博客

本文链接：https://blog.youkuaiyun.com/topfine/article/details/147235700

💡 本文会带给你

大模型常用的评估方法
有哪些重要的评估指标
有哪些主流的开源评估数据
怎样使用Opencompass进行评估

大模型评估测试是验证模型性能、可靠性和适用性的关键步骤。大模型有客观评价和主管评价。客观评价的场景主要与法律和医疗类似的业务。

一. 评估方法

1. 自动化测试

程序脚本实现

In [ ]:

#python
#示例：使用评估框架测试模型
from evaluate import load
bertscore = load("bertscore")
results = bertscore.compute(predictions=model_outputs, references=ground_truths, lang="zh")

2. 人工评估

设计评分表(1-5分)评估：相关性
事实准确性
语言流畅度
安全性

二. 评估框架

OpenCompass 是上海人工智能实验室推出的大模型评测体系，支持对多种大模型进行全方位能力评估。旨在为机器学习和自然语言处理领域提供多功能、易于使用的工具和框架。其中包含的多个开源模型和开源数据集（BenchMarks），方便进行模型的效果评测。

1. 生成式大模型的评估指标

核心评估指标

OpenCompass支持以下主要评估指标，覆盖生成式大模型的多样化需求：

准确率（Accuracy）：用于选择题或分类任务，通过比对生成结果与标准答案计算正确率。在OpenCompass中通过metric=accuracy配置

困惑度（Perplexity, PPL）：衡量模型对候选答案的预测能力，适用于选择题评估。需使用ppl类型的数据集配置（如ceval_ppl）

生成质量（GEN）：通过文本生成结果提取答案，需结合后处理脚本解析输出。使用gen类型的数据集（如ceval_gen），配置metric=gen并指定后处理规则

ROUGE/LCS：用于文本生成任务的相似度评估，需安装rouge==1.0.1依赖，并在数据配置中设置metric=rouge

条件对数概率（CLP）：结合上下文计算答案的条件概率，适用于复杂推理任务，需在模型配置中启用use_logprob=Tru

2. 支持的开源评估数据集及使用差异

2.1. 主流开源数据集

OpenCompass内置超过70个数据集，覆盖五大能力维度：

知识类：C-Eval（中文考试题&#x