评测与使用-评测-评测指标与评测方法

一、简介

  • 评测方式:多样化任务来测试模型能力
  • 多样化任务:语言建模、文本分类、条件文本生成、执行类任务、偏好排序类任务

二、常见评测指标

评测任务评测指标介绍
分类任务精确率
召回率
F1分数
计算模型预测为正例的样本中真正为正例的比例
计算真正例样本中被模型预测正确的比例
综合衡量模型准确率与召回率
语言建模任务困惑度衡量模型对参考文本的建模概率
文本生成任务BLEU
ROUGE
衡量机器翻译与参考翻译之间的重叠度
衡量机器摘要与参考摘要的覆盖度
问答任务准确率衡量模型预测的正确答案比例
执行类任务成功率
Pass@k
衡量模型成功完成任务的比例
估计模型生成k个方案中至少能通过一次的概率
偏好排序类任务Elo等级分衡量模型在候选者中的相对水平

三、评测范式与方法

  • 能力维度评估方法
方法优点缺点
基于评测基准的办法高度自动化、复用性;减少人工干预大模型对评估内容敏感,会影响评测结果;存在数据污染等问题
基于人类评估的办法更好适用性;更高灵活性;评估结果收到个人主观因素(个人偏好、教育程度等)影响
基于模型评估的办法人工干预少,评估效率高位置偏置:大模型倾向于给特定位置的答案高分;
冗长偏置:大模型倾向于给冗长的答案高分
自增强偏置:倾向于给自己生成的高分
  • 评测方法及典型评测工作
方法评测工作模型类型能力/类型数据源
基于评测基准MMLU
BIG-Bench
HELM
C-Eval
Open LLM Leaderboard
基础/微调
基础/微调
基础/微调
基础/微调
基础/微调
通用
通用
通用
通用
通用
人类考试
人工标注
基准集合
人类考试
基准集合
基于人类评估Chatbot Arena微调人类对齐人工标注
基于模型评估AlpacaEval
MT-Bench
微调
微调
指令跟随
人类对齐
合成
人工标注
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值