一、简介
- 评测方式:多样化任务来测试模型能力
- 多样化任务:语言建模、文本分类、条件文本生成、执行类任务、偏好排序类任务
二、常见评测指标
评测任务 | 评测指标 | 介绍 |
---|---|---|
分类任务 | 精确率 召回率 F1分数 | 计算模型预测为正例的样本中真正为正例的比例 计算真正例样本中被模型预测正确的比例 综合衡量模型准确率与召回率 |
语言建模任务 | 困惑度 | 衡量模型对参考文本的建模概率 |
文本生成任务 | BLEU ROUGE | 衡量机器翻译与参考翻译之间的重叠度 衡量机器摘要与参考摘要的覆盖度 |
问答任务 | 准确率 | 衡量模型预测的正确答案比例 |
执行类任务 | 成功率 Pass@k | 衡量模型成功完成任务的比例 估计模型生成k个方案中至少能通过一次的概率 |
偏好排序类任务 | Elo等级分 | 衡量模型在候选者中的相对水平 |
三、评测范式与方法
- 能力维度评估方法
方法 | 优点 | 缺点 |
---|---|---|
基于评测基准的办法 | 高度自动化、复用性;减少人工干预 | 大模型对评估内容敏感,会影响评测结果;存在数据污染等问题 |
基于人类评估的办法 | 更好适用性;更高灵活性; | 评估结果收到个人主观因素(个人偏好、教育程度等)影响 |
基于模型评估的办法 | 人工干预少,评估效率高 | 位置偏置:大模型倾向于给特定位置的答案高分; 冗长偏置:大模型倾向于给冗长的答案高分 自增强偏置:倾向于给自己生成的高分 |
- 评测方法及典型评测工作
方法 | 评测工作 | 模型类型 | 能力/类型 | 数据源 |
---|---|---|---|---|
基于评测基准 | MMLU BIG-Bench HELM C-Eval Open LLM Leaderboard | 基础/微调 基础/微调 基础/微调 基础/微调 基础/微调 | 通用 通用 通用 通用 通用 | 人类考试 人工标注 基准集合 人类考试 基准集合 |
基于人类评估 | Chatbot Arena | 微调 | 人类对齐 | 人工标注 |
基于模型评估 | AlpacaEval MT-Bench | 微调 微调 | 指令跟随 人类对齐 | 合成 人工标注 |