6月前沿评测集一网打尽!多模态、智能体、代码领域全覆盖

司南评测集社区 CompassHub 作为司南评测体系的重要组成部分,旨在打造创新性的基准测试资源导航社区,提供丰富、及时、专业的评测集信息,帮助研究人员和行业人士快速搜索和使用评测集。

2025 年 6 月,司南评测集社区新收录 30+ 个评测基准,聚焦多模态理解、智能体、代码等多个前沿领域。以下为本月部分新增评测基准的详细介绍。

司南评测集社区链接:

https://hub.opencompass.org.cn/home

多模态理解

MVPBench

发布单位:

Central South University

发布时间:

2025-06-02

评测集简介:

MVPBench 专注于视觉物理推理中的视觉链式思维(CoT)能力评估。它特别关注模型能否像人类一样,依据图片一步步进行逻辑推理,而不是依赖文字提示直接得出结论。

评测集社区链接:

https://hub.opencompass.org.cn/dataset-detail/MVPBench

MORSE-500

发布单位:

University of Maryland

发布时间:

2025-06-05

评测集简介:

MORSE-500 是一个用来测试多模态看视频后是否能“理解逻辑关系”的数据集,包含六种推理类别(抽象、数学、物理、规划、空间和时间)的 500 个程序生成视频,用于测试多模态推理能力。

评测集社区链接:

https://hub.opencompass.org.cn/dataset-detail/MORSE-500

VideoMathQA

发布单位:

MBZUAI,University of California Merced,Google Research,etc

发布时间:

2025-06-05

评测集简介:

VideoMathQA 是一个用于评估多模态模型在视频场景下数学推理能力的评测集。该数据集要求模型同时理解视频中的视觉、音频和文本信息,处理长度从 10 秒到 1 小时不等的内容,包括几何、统计、算术和图表等 10 个领域。

评测集社区链接:

https://hub.opencompass.org.cn/dataset-detail/VideoMathQA

CausalVQA

发布单位:

FAIR at Meta

发布时间:

2025-06-11

评测集简介:

CausalVQA 是一个用于评估多模态模型因果推理能力的视频问答数据集。它涵盖反事实、假设、预判、规划和描述五类问题,考察模型对事件结果与行为后果的理解与预测能力。

评测集社区链接:

https://hub.opencompass.org.cn/dataset-detail/CausalVQA

IntPhys2

发布单位:

FAIR at Meta

发布时间:

2025-06-11

评测集简介:

IntPhys2 是一个评估模型物理直觉理解的视频基准,涵盖 5 个场景、60 个视频,聚焦物体恒存性、不变性、时空连续性与坚实性等常识原则。

评测集社区链接:

https://hub.opencompass.org.cn/dataset-detail/IntPhys2

智能体

Orak

发布单位:

KRAFTON , SeoulNationalUniversity , NVIDIA , UniversityofWisconsin-Madison

发布时间:

2025-06-04

评测集简介:

Orak 是一个面向大语言模型智能体的评测平台,用于测试它们在多种视频游戏环境中的表现。该基准涵盖 12 款真实热门游戏,覆盖动作、冒险、角色扮演、模拟、策略和解谜六大类型,构建了一个全面、多样的测试场景,用于评估智能体的游戏理解与任务执行能力。

评测集社区链接:

https://hub.opencompass.org.cn/dataset-detail/Orak

AssetOpsBench

发布单位:

IBMResearch-Yorktown , IBMResearch-Ireland

发布时间:

2025-06-04

评测集简介:

AssetOpsBench 用来测试大模型和智能体是否能胜任“工业现场的运维任务”。它评估模型在故障诊断、任务规划、合规审查等方面的能力,收录 1,000 个来自真实场景的问题,覆盖 20 多个领域。

评测集社区链接:

https://hub.opencompass.org.cn/dataset-detail/AssetOpsBench

DeepResearchBench

发布单位:

University of Science and Technology of China , Metastone Technology, Beijing, China

发布时间:

2025-06-13

评测集简介:

DeepResearch Bench 用来测试大语言模型能不能胜任“博士级别”的研究任务。它由 22 个领域的专家设计,共包含 100 个高难度课题,覆盖多个专业方向,专为评估模型在复杂研究场景中的真实表现。

评测集社区链接:

https://hub.opencompass.org.cn/dataset-detail/DeepResearchBench

CVDP

发布单位:

NVIDIA

发布时间:

2025-06-17

评测集简介:

CVDP 是一个面向大型语言模型与智能体系统的综合性评测基准,专用于评估其在硬件设计与验证任务中的能力表现。该基准涵盖 13 类任务类型,共计 783 个问题,聚焦于 RTL(寄存器传输级)代码生成、验证、调试、规范一致性检查以及技术问答等关键环节。

评测集社区链接:

https://hub.opencompass.org.cn/dataset-detail/CVDP

PersonaLens

发布单位:

University of Edinburgh, Amazon, UCL

发布时间:

2025-06-11

评测集简介:

PersonaLens 用来测试对话式 AI 助手是否能“理解用户是谁、喜欢什么、需要什么”。它通过丰富的用户画像和互动历史,评估助手在不同个性偏好下完成任务的表现,覆盖超 100 项任务,涉及 20 个真实应用领域。

评测集社区链接:

https://hub.opencompass.org.cn/dataset-detail/PersonaLens

OPT-BENCH

发布单位:

Tong Ji University , Shanghai AI Lab , Nanjing University , Zhejiang University

发布时间:

2025-06-12

评测集简介:

OPT-BENCH 用来测试大语言模型是否能在复杂问题中“越想越聪明”。它收录了 30 个高难度任务,包括 Kaggle 上的真实机器学习挑战和经典 NP 优化问题,覆盖预测建模、图论和组合优化等领域,专门评估模型的迭代推理与优化能力。

评测集社区链接:

https://hub.opencompass.org.cn/dataset-detail/OPT-BENCH

代码

SWE-bench-Live

发布单位:

Microsoft

发布时间:

2025-06-01

评测集简介:

SWE-bench-Live 是一个面向大语言模型和智能体的实时可更新评测基准,专注于真实世界软件缺陷修复任务。 该基准从 2024 年以来的 GitHub 活跃仓库中自动收集了 1,319 个问题修复任务,涵盖 93 个项目,并为每个任务提供可复现的 Docker 执行环境。

评测集社区链接:

https://hub.opencompass.org.cn/dataset-detail/SWE-bench-Live

RDB2G-Bench

发布单位:

Kumo.AI , Kim Jaechul Graduate School of AI, KAIST

发布时间:

2025-06-02

评测集简介:

RDB2G-Bench 用来测试 AI 能否把传统数据库自动转换成图结构,并用图神经网络完成预测任务。它支持多种建模方式(包括 LLM),收录 5 个真实数据库、12 项任务,总计生成约 5 万个图模型和评估结果,适合高效、可复现的实验。

评测集社区链接:

https://hub.opencompass.org.cn/dataset-detail/RDB2G-Bench

WebUIBench

发布单位:

The Chinese University of HongKong,HongKong SAR,China ,etc.

发布时间:

2025-06-09

评测集简介:

WebUIBench 用来测试多模态大模型能否“看懂网页界面、写出对应代码”。它聚焦四项核心能力:界面识别、HTML 编程、界面-代码理解和整体转换。数据集来自 700 多个真实网站,共包含 21,000 个高质量问答对,支持对模型在不同阶段的表现进行细粒度分析。

评测集社区链接:

https://hub.opencompass.org.cn/dataset-detail/WebUI-Bench

ALE-Bench

发布单位:

SakanaAI, Japan , The University of Tokyo, Japan , AtCoder, etc.

发布时间:

2025-06-10

评测集简介:

ALE-Bench 用来测试 AI 是否能在长期复杂任务中做出聪明决策。它从 AtCoder 启发式竞赛中引入真实问题,覆盖路径规划、人员调度、生产计划、电网平衡等实际场景,挑战模型在难度极高的优化任务中解决问题的能力。

评测集社区链接:

https://hub.opencompass.org.cn/dataset-detail/ALE-Bench

SWE-Factory

发布单位:SunYat-senUniversity , IndependentResearcher , Huawei.

发布时间:

2025-06-12

评测集简介:

SWE-Factory 用来测试大语言模型修 Bug 的能力。它自动搭建多智能体环境,并结合真实运行结果进行评分,确保测试高效且可靠。数据集覆盖 4 种编程语言,共包含 671 个真实问题,支持自动化、可扩展的评估流程。

评测集社区链接:

https://hub.opencompass.org.cn/dataset-detail/SWE-Factory

SEC-bench

发布单位:University of Illinois Urbana-Champaign , Purdue University

发布时间:

2025-06-13

评测集简介:

SEC-bench 用来测试大语言模型是否能发现并修复真实软件漏洞。它通过多智能体系统自动搭建测试环境,复现漏洞、生成补丁,覆盖漏洞验证和修复两个关键任务,数据集包含数百个真实安全案例。

评测集社区链接:

https://hub.opencompass.org.cn/dataset-detail/SEC-bench

其他

RewardBench

发布单位:

Allen Institute for Artificial Intelligence , University of Washington , Cohere

发布时间:

2025-06-02

评测集简介:

RewardBench 用来测试奖励模型在“选出最合适回答”方面的综合能力。它设置了 100 多个全新的人类提示语,每题给出 4 个备选答案,让模型从中选出最优选项。评估覆盖六个关键维度:事实准确性、指令遵循、数学推理、安全性、聚焦性,以及稳定性。

评测集社区链接:

https://hub.opencompass.org.cn/dataset-detail/RewardBench

ByteMorph

发布单位:

ByteDance Seed , University of Southern California , University of Tokyo , etc.

发布时间:

2025-06-03

评测集简介:

ByteMorph 用来测试图像生成模型在“复杂动态编辑”场景下的表现,比如镜头移动、物体变形、人物动作或交互变化。数据集中包含超过 600 万对高清图像编辑样本,覆盖多种非刚性运动类型,支持对模型在细节变化下的处理能力进行精细评估。

评测集社区链接:

https://hub.opencompass.org.cn/dataset-detail/ByteMorph

HtFLlib

发布单位:

Shanghai Jiao Tong University , Beihang University , Chongqing University , Tongji University , etc.

发布时间:

2025-06-04

评测集简介:

HtFLlib 是一个面向异构联邦学习算法的综合评测基准,旨在衡量不同模型架构在非 IID 数据环境中的协同学习能力。评测对象覆盖图像、文本与传感信号三类模型,总计 40 个架构及 10 种代表性方法。

评测集社区链接:

https://hub.opencompass.org.cn/dataset-detail/HtFLlib

EditInspector

发布单位:

The Hebrew University of Jerusalem , TelAviv University , Google Research

发布时间:

2025-06-11

评测集简介:

EditInspector 用来测试图像编辑模型是否能“听懂文字,改图准确”。它通过 983 条人工标注样本,评估模型在编辑准确性、画面一致性和语义合理性三个维度的表现,覆盖 MagicBrush、Imagen3、UltraEdit 等多种典型任务和模型。

评测集社区链接:

https://hub.opencompass.org.cn/dataset-detail/EditInspector

ClimateViz

发布单位:

University of Oxford

发布时间:

2025-06-11

评测集简介:

ClimateViz 用来测试大模型能否“看懂气候图表、判断说法对不对”。它收录来自 NOAA 和英国气象局等机构的约 2,800 张科学图表和近 5 万条主张,每条主张都标注为“支持”“反驳”或“信息不足”,用于评估模型的事实核查与统计推理能力。

评测集社区链接:

https://hub.opencompass.org.cn/dataset-detail/ClimateViz

ViStoryBench

发布单位:

Shanghai Tech University , StepFun , AIGC Research , AGI Lab, Westlake University

发布时间:

2025-06-25

评测集简介:

ViStoryBench 是一个面向故事可视化任务的综合性评测基准,该基准涵盖多样化故事类型和艺术风格,包含 80 个故事片段,344 个独特角色及 509 张参考图像,覆盖儿童绘本奇幻文学等多领域场景。

评测集社区链接:

https://hub.opencompass.org.cn/dataset-detail/ViStoryBench

司南评测集社区 6 月上新介绍就到这里了。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值