6月前沿评测集一网打尽!多模态、智能体、代码领域全覆盖

6月司南评测集多领域前沿评测基准

司南评测集社区 CompassHub 作为司南评测体系的重要组成部分,旨在打造创新性的基准测试资源导航社区,提供丰富、及时、专业的评测集信息,帮助研究人员和行业人士快速搜索和使用评测集。

2025 年 6 月,司南评测集社区新收录 30+ 个评测基准,聚焦多模态理解、智能体、代码等多个前沿领域。以下为本月部分新增评测基准的详细介绍。

司南评测集社区链接:

https://hub.opencompass.org.cn/home

多模态理解

MVPBench

发布单位:

Central South University

发布时间:

2025-06-02

评测集简介:

MVPBench 专注于视觉物理推理中的视觉链式思维(CoT)能力评估。它特别关注模型能否像人类一样,依据图片一步步进行逻辑推理,而不是依赖文字提示直接得出结论。

评测集社区链接:

https://hub.opencompass.org.cn/dataset-detail/MVPBench

MORSE-500

发布单位:

University of Maryland

发布时间:

2025-06-05

评测集简介:

MORSE-500 是一个用来测试多模态看视频后是否能“理解逻辑关系”的数据集,包含六种推理类别(抽象、数学、物理、规划、空间和时间)的 500 个程序生成视频,用于测试多模态推理能力。

评测集社区链接:

https://hub.opencompass.org.cn/dataset-detail/MORSE-500

VideoMathQA

发布单位:

MBZUAI,University of California Merced,Google Research,etc

发布时间:

2025-06-05

评测集简介:

VideoMathQA 是一个用于评估多模态模型在视频场景下数学推理能力的评测集。该数据集要求模型同时理解视频中的视觉、音频和文本信息,处理长度从 10 秒到 1 小时不等的内容,包括几何、统计、算术和图表等 10 个领域。

评测集社区链接:

https://hub.opencompass.org.cn/dataset-detail/VideoMathQA

CausalVQA

发布单位:

FAIR at Meta

发布时间:

2025-06-11

评测集简介:

CausalVQA 是一个用于评估多模态模型因果推理能力的视频问答数据集。它涵盖反事实、假设、预判、规划和描述五类问题,考察模型对事件结果与行为后果的理解与预测能力。

评测集社区链接:

https://hub.opencompass.org.cn/dataset-detail/CausalVQA

IntPhys2

发布单位:

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值