大模型验证数据集涵盖:语言理解、推理、代码、多模态、伦理安全等核心方向,便于针对性地评估模型能力
1. 语言理解与生成
数据集 | 作用 | 典型任务示例 |
---|---|---|
MMLU | 评估多学科综合知识掌握能力(57个学科英文选择题)。 | 历史事件解释、科学概念辨析。 |
SuperGLUE | 测试复杂语义理解(如文本蕴含、指代消解),比GLUE更具挑战性。 | 判断句子逻辑关系(BoolQ)、选择合理续写(COPA)。 |
SQuAD | 机器阅读理解,要求根据段落回答开放性问题。 | 从文章中提取答案或生成摘要。 |
RACE | 评估长文本阅读理解能力(中高考英语题)。 | 理解文章主旨并回答细节问题。 |
TruthfulQA | 检测模型生成答案的真实性,避免虚假信息。 | 回答科学常识问题时是否产生幻觉。 |
2. 数学与逻辑推理
数据集 |
---|