浅谈大模型评估

💡 本文会带给你

  1. 大模型常用的评估方法
  2. 有哪些重要的评估指标
  3. 有哪些主流的开源评估数据
  4. 怎样使用Opencompass进行评估

大模型评估测试是验证模型性能、可靠性和适用性的关键步骤。大模型有客观评价和主管评价。客观评价的场景主要与法律和医疗类似的业务。

一. 评估方法

1. 自动化测试

程序脚本实现

In [ ]:

#python
#示例:使用评估框架测试模型
from evaluate import load
bertscore = load("bertscore")
results = bertscore.compute(predictions=model_outputs, references=ground_truths, lang="zh")

2. 人工评估

设计评分表(1-5分)评估: 相关性
事实准确性
语言流畅度
安全性

二. 评估框架

OpenCompass 是上海人工智能实验室推出的大模型评测体系,支持对多种大模型进行全方位能力评估。旨在为机器学习和自然语言处理领域提供多功能、易于使用的工具和框架。其中包含的多个开源模型和开源数据集(BenchMarks),方便进行模型的效果评测。

1. 生成式大模型的评估指标

核心评估指标

OpenCompass支持以下主要评估指标,覆盖生成式大模型的多样化需求:

准确率(Accuracy):用于选择题或分类任务,通过比对生成结果与标准答案计算正确率。在OpenCompass中通过metric=accuracy配置

困惑度(Perplexity, PPL):衡量模型对候选答案的预测能力,适用于选择题评估。需使用ppl类型的数据集配置(如ceval_ppl)

生成质量(GEN):通过文本生成结果提取答案,需结合后处理脚本解析输出。使用gen类型的数据集(如ceval_gen),配置metric=gen并指定后处理规则

ROUGE/LCS:用于文本生成任务的相似度评估,需安装rouge==1.0.1依赖,并在数据配置中设置metric=rouge

条件对数概率(CLP):结合上下文计算答案的条件概率,适用于复杂推理任务,需在模型配置中启用use_logprob=Tru

2. 支持的开源评估数据集及使用差异

2.1. 主流开源数据集

OpenCompass内置超过70个数据集,覆盖五大能力维度:

知识类:C-Eval(中文考试题&#x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值