大模型验证数据集总结

大模型验证数据集涵盖:语言理解、推理、代码、多模态、伦理安全等核心方向,便于针对性地评估模型能力


1. 语言理解与生成

数据集 作用 典型任务示例
MMLU 评估多学科综合知识掌握能力(57个学科英文选择题)。 历史事件解释、科学概念辨析。
SuperGLUE 测试复杂语义理解(如文本蕴含、指代消解),比GLUE更具挑战性。 判断句子逻辑关系(BoolQ)、选择合理续写(COPA)。
SQuAD 机器阅读理解,要求根据段落回答开放性问题。 从文章中提取答案或生成摘要。
RACE 评估长文本阅读理解能力(中高考英语题)。 理解文章主旨并回答细节问题。
TruthfulQA 检测模型生成答案的真实性,避免虚假信息。 回答科学常识问题时是否产生幻觉。

2. 数学与逻辑推理

数据集
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小鹏AI

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值