OpenCompass项目评测指标详解：如何选择与配置合适的评估指标-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00799/article/details/148505315

OpenCompass项目评测指标详解：如何选择与配置合适的评估指标

opencompass opencompass - OpenCompass是一个用于评估大型语言模型的工具，提供分布式评估、多样化评估范式和模块化设计。项目地址: https://gitcode.com/gh_mirrors/op/opencompass

引言

在大模型评估领域，选择合适的评测指标是确保评估结果准确可靠的关键。OpenCompass作为全面的大模型评测平台，提供了丰富的评估指标支持。本文将深入解析OpenCompass中的评测指标体系，帮助开发者理解如何根据任务类型选择最合适的评估方法。

评估指标分类与应用场景

在OpenCompass中，评估指标的选择主要取决于标准答案的类型和任务特性。以下是常见的五类评估场景及其对应的指标：

1. 选择题型评估（Choice）

适用场景：分类任务、判断题、选择题等，如MMLU、CEval等数据集。

核心指标：准确率(Accuracy)

评估器：ACCEvaluator

技术要点：

适用于选项明确、答案唯一的情况
通常需要配合first_capital_postprocess后处理方法使用
优势在于计算简单、解释性强

2. 短语匹配评估（Phrase）

适用场景：问答、阅读理解等任务，如CLUE_CMRC、DROP等数据集。

核心指标：匹配率(Exact Match)

评估器：EMEvaluator

技术要点：

要求预测答案与标准答案完全一致
对大小写、标点等敏感
部分数据集可能需要特定的后处理方法

3. 句子级评估（Sentence）

适用场景：翻译、伪代码/命令行生成等任务，如Flores、Summscreen等数据集。

核心指标：BLEU分数

评估器：BleuEvaluator

技术要点：

通过n-gram重叠率评估生成质量
适用于评估流畅性和内容覆盖度
对中文任务可能需要特定的后处理如general_cn_postprocess

4. 段落级评估（Paragraph）

适用场景：文本摘要生成等任务，如Lcsts、TruthfulQA等数据集。

核心指标：ROUGE分数

评估器：RougeEvaluator或JiebaRougeEvaluator

技术要点：

评估生成文本与参考文本的词汇重叠率
中文任务推荐使用JiebaRougeEvaluator
可细分为ROUGE-N、ROUGE-L等子指标

5. 代码评估（Code）

适用场景：代码生成任务，如Humaneval、MBPP等数据集。

核心指标：执行通过率、pass@k

评估器：HumanEvalEvaluator或MBPPEvaluator

技术要点：

通过实际执行代码验证正确性
评估功能性而非表面相似度
需要特定的后处理如humaneval_postprocess

特殊评估类型

除了上述常见类型外，OpenCompass还支持一些特殊场景的评估：

评分型评估

适用场景：无标准答案的毒性检测等任务，如realtoxicityprompts数据集。

核心指标：PerspectiveAPI评分

评估器：ToxicEvaluator

其他专业评估

OpenCompass还提供多种专业评估器：

AGIEvalEvaluator：针对AGIEval数据集的准确率评估
AUCROCEvaluator：AUC-ROC曲线评估，适用于jigsawmultilingual等数据集
MATHEvaluator：数学问题评估，使用math_postprocess后处理
MccEvaluator：Matthews相关系数评估
SquadEvaluator：F1分数评估

评估指标配置实践

在OpenCompass中，评估指标的配置通常位于数据集配置文件中。以下是一个典型的配置示例（以govrepcrs数据集为例）：

from opencompass.openicl.icl_evaluator import BleuEvaluator
from opencompass.datasets import GovRepcrsDataset
from opencompass.utils.text_postprocessors import general_cn_postprocess

# 评估指标配置
govrepcrs_eval_cfg = dict(
    evaluator=dict(type=BleuEvaluator),       # 指定评估器类型
    pred_role='BOT',                          # 指定预测结果的角色
    pred_postprocessor=dict(type=general_cn_postprocess),     # 预测结果后处理
    dataset_postprocessor=dict(type=general_cn_postprocess))  # 标准答案后处理

# 完整数据集配置
govrepcrs_datasets = [
    dict(
        type=GovRepcrsDataset,                # 数据集类
        path='./data/govrep/',                # 数据路径
        abbr='GovRepcrs',                     # 数据集简称
        reader_cfg=govrepcrs_reader_cfg,      # 读取配置
        infer_cfg=govrepcrs_infer_cfg,         # 推理配置
        eval_cfg=govrepcrs_eval_cfg)          # 评估配置
]