OpenCompass数据污染评估技术详解-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00552/article/details/148505322

OpenCompass数据污染评估技术详解

opencompass opencompass - OpenCompass是一个用于评估大型语言模型的工具，提供分布式评估、多样化评估范式和模块化设计。项目地址: https://gitcode.com/gh_mirrors/op/opencompass

什么是数据污染

在大语言模型(LLM)评估过程中，数据污染是一个严重影响评估结果真实性的问题。它指的是本应用于测试任务的数据意外出现在了大语言模型的训练数据中，导致模型在这些测试任务上表现出不真实的性能表现。

这种现象就好比学生在考试前已经看到了考试题目和答案，那么考试分数自然不能真实反映学生的实际学习能力。同样，当模型在训练阶段"见过"测试数据，其评估结果就会失去客观性。

数据污染的危害

数据污染会导致：

评估表现不真实，无法反映模型真实泛化能力
不同模型间的比较失去公平性
研究成果的可信度降低
可能误导后续的研究方向

OpenCompass的解决方案

OpenCompass提供了两种创新的数据污染评估方法，帮助研究人员更准确地判断模型评估结果的可靠性。

方法一：基于自建同分布数据的污染评估

核心思想

这种方法借鉴了Skywork研究中的思路，通过构建三类数据集：

训练集：原始训练数据
测试集：原始测试数据
参考集：新生成的、确定未被污染的数据

通过比较模型在这三类数据上的困惑度(perplexity)差异，来判断是否存在数据污染。

技术实现

数据准备：使用GPT-4生成与原始数据集(如GSM8K)风格相似但全新的参考数据
指标计算：分别计算模型在三类数据上的平均困惑度
污染判断：
- 若测试集困惑度显著低于参考集，可能测试集被污染
- 若训练集困惑度显著低于测试集，可能模型过拟合训练数据

配置示例

from mmengine.config import read_base

with read_base():
    from .datasets.gsm8k_contamination.gsm8k_contamination_ppl_ecdd22 import gsm8k_datasets
    from .models.qwen.hf_qwen_7b import models as hf_qwen_7b_model
    from .models.yi.hf_yi_6b import models as hf_yi_6b_model

datasets = [*gsm8k_datasets]
models = [*hf_qwen_7b_model, *hf_yi_6b_model]

结果解读

典型输出结果会显示模型在三类数据上的困惑度。通过横向比较不同数据集的困惑度差异，可以判断污染程度。

方法二：基于经典预训练集的污染标注

核心思想

这种方法通过检索测试数据在公共数据源(如Common Crawl、Bing)中的出现情况，将测试数据标记为三类：

干净的：完全未出现在公共数据源中
题目被污染的：仅题目出现在公共数据源中
题目和答案均被污染的：题目和答案都出现在公共数据源中

技术实现

数据标注：使用检索工具标记每条测试数据的污染状态
分项评估：分别计算模型在三类数据上的准确率或困惑度
污染判断：
- 三类数据性能差异越大，污染越严重
- 性能排序通常为：干净的 < 题目被污染的 < 题目和答案均被污染的

配置示例

from mmengine.config import read_base

with read_base():
    from .datasets.ceval.ceval_clean_ppl import ceval_datasets
    from .models.yi.hf_yi_6b import models as hf_yi_6b_model
    from .models.qwen.hf_qwen_7b import models as hf_qwen_7b_model
    from .summarizers.contamination import ceval_summarizer as summarizer

datasets = [*ceval_datasets]
models = [*hf_yi_6b_model, *hf_qwen_7b_model]

结果解读

输出会显示模型在三类数据上的准确率差异。通过比较不同污染程度数据的性能差距，可以评估污染对模型表现的潜在影响。

方法对比与选择建议

| 评估方法 | 适用场景 | 优势 | 局限性 | |---------|---------|------|--------| | 同分布数据法 | 特定领域数据集(如GSM8K) | 结果直观，易于解释 | 需要生成参考数据，目前仅支持GSM8K | | 污染标注法 | 通用评估数据集(如C-Eval,MMLU) | 覆盖面广，可直接使用 | 依赖外部检索工具，标记可能有误差 |

选择建议：