💡 本文会带给你
- 大模型常用的评估方法
- 有哪些重要的评估指标
- 有哪些主流的开源评估数据
- 怎样使用Opencompass进行评估
大模型评估测试是验证模型性能、可靠性和适用性的关键步骤。大模型有客观评价和主管评价。客观评价的场景主要与法律和医疗类似的业务。
一. 评估方法
1. 自动化测试
程序脚本实现
In [ ]:
#python #示例:使用评估框架测试模型 from evaluate import load bertscore = load("bertscore") results = bertscore.compute(predictions=model_outputs, references=ground_truths, lang="zh")
2. 人工评估
设计评分表(1-5分)评估: 相关性
事实准确性
语言流畅度
安全性
二. 评估框架
OpenCompass 是上海人工智能实验室推出的大模型评测体系,支持对多种大模型进行全方位能力评估。旨在为机器学习和自然语言处理领域提供多功能、易于使用的工具和框架。其中包含的多个开源模型和开源数据集(BenchMarks),方便进行模型的效果评测。
1. 生成式大模型的评估指标
核心评估指标
OpenCompass支持以下主要评估指标,覆盖生成式大模型的多样化需求:
准确率(Accuracy):用于选择题或分类任务,通过比对生成结果与标准答案计算正确率。在OpenCompass中通过metric=accuracy配置
困惑度(Perplexity, PPL):衡量模型对候选答案的预测能力,适用于选择题评估。需使用ppl类型的数据集配置(如ceval_ppl)
生成质量(GEN):通过文本生成结果提取答案,需结合后处理脚本解析输出。使用gen类型的数据集(如ceval_gen),配置metric=gen并指定后处理规则
ROUGE/LCS:用于文本生成任务的相似度评估,需安装rouge==1.0.1依赖,并在数据配置中设置metric=rouge
条件对数概率(CLP):结合上下文计算答案的条件概率,适用于复杂推理任务,需在模型配置中启用use_logprob=Tru
2. 支持的开源评估数据集及使用差异
2.1. 主流开源数据集
OpenCompass内置超过70个数据集,覆盖五大能力维度:
知识类:C-Eval(中文考试题&#x