6月前沿评测集一网打尽！多模态、智能体、代码领域全覆盖

司南评测

已于 2025-07-04 18:55:30 修改

阅读量927

点赞数 25

CC 4.0 BY-SA版权

分类专栏：评测数据集文章标签：人工智能大模型评测大模型司南评测语言模型

于 2025-07-04 18:54:46 首次发布

本文链接：https://blog.youkuaiyun.com/OpenCompass/article/details/149123450

评测数据集专栏收录该内容

10 篇文章

订阅专栏

司南评测集社区 CompassHub 作为司南评测体系的重要组成部分，旨在打造创新性的基准测试资源导航社区，提供丰富、及时、专业的评测集信息，帮助研究人员和行业人士快速搜索和使用评测集。

2025 年 6 月，司南评测集社区新收录 30+ 个评测基准，聚焦多模态理解、智能体、代码等多个前沿领域。以下为本月部分新增评测基准的详细介绍。

司南评测集社区链接：

https://hub.opencompass.org.cn/home

多模态理解

MVPBench

发布单位：

Central South University

发布时间：

2025-06-02

评测集简介：

MVPBench 专注于视觉物理推理中的视觉链式思维（CoT）能力评估。它特别关注模型能否像人类一样，依据图片一步步进行逻辑推理，而不是依赖文字提示直接得出结论。

评测集社区链接：

https://hub.opencompass.org.cn/dataset-detail/MVPBench

MORSE-500

发布单位：

University of Maryland

发布时间：

2025-06-05

评测集简介：

MORSE-500 是一个用来测试多模态看视频后是否能“理解逻辑关系”的数据集，包含六种推理类别（抽象、数学、物理、规划、空间和时间）的 500 个程序生成视频，用于测试多模态推理能力。

评测集社区链接：

https://hub.opencompass.org.cn/dataset-detail/MORSE-500

VideoMathQA

发布单位：

MBZUAI,University of California Merced,Google Research,etc

发布时间：

2025-06-05

评测集简介：

VideoMathQA 是一个用于评估多模态模型在视频场景下数学推理能力的评测集。该数据集要求模型同时理解视频中的视觉、音频和文本信息，处理长度从 10 秒到 1 小时不等的内容，包括几何、统计、算术和图表等 10 个领域。

评测集社区链接：

https://hub.opencompass.org.cn/dataset-detail/VideoMathQA

CausalVQA

发布单位：

FAIR at Meta

发布时间：

2025-06-11

评测集简介：

CausalVQA 是一个用于评估多模态模型因果推理能力的视频问答数据集。它涵盖反事实、假设、预判、规划和描述五类问题，考察模型对事件结果与行为后果的理解与预测能力。

评测集社区链接：

https://hub.opencompass.org.cn/dataset-detail/CausalVQA

IntPhys2

发布单位：

FAIR at Meta

发布时间：

2025-06-11

评测集简介：

IntPhys2 是一个评估模型物理直觉理解的视频基准，涵盖 5 个场景、60 个视频，聚焦物体恒存性、不变性、时空连续性与坚实性等常识原则。

评测集社区链接：

https://hub.opencompass.org.cn/dataset-detail/IntPhys2

智能体

Orak

发布单位：

KRAFTON , SeoulNationalUniversity , NVIDIA , UniversityofWisconsin-Madison

发布时间：

2025-06-04

评测集简介：

Orak 是一个面向大语言模型智能体的评测平台，用于测试它们在多种视频游戏环境中的表现。该基准涵盖 12 款真实热门游戏，覆盖动作、冒险、角色扮演、模拟、策略和解谜六大类型，构建了一个全面、多样的测试场景，用于评估智能体的游戏理解与任务执行能力。

评测集社区链接：

https://hub.opencompass.org.cn/dataset-detail/Orak

AssetOpsBench

发布单位：

IBMResearch-Yorktown , IBMResearch-Ireland

发布时间：

2025-06-04

评测集简介：

AssetOpsBench 用来测试大模型和智能体是否能胜任“工业现场的运维任务”。它评估模型在故障诊断、任务规划、合规审查等方面的能力，收录 1,000 个来自真实场景的问题，覆盖 20 多个领域。

评测集社区链接：

https://hub.opencompass.org.cn/dataset-detail/AssetOpsBench

DeepResearchBench

发布单位：

University of Science and Technology of China , Metastone Technology, Beijing, China

发布时间：

2025-06-13

评测集简介：

DeepResearch Bench 用来测试大语言模型能不能胜任“博士级别”的研究任务。它由 22 个领域的专家设计，共包含 100 个高难度课题，覆盖多个专业方向，专为评估模型在复杂研究场景中的真实表现。

评测集社区链接：

https://hub.opencompass.org.cn/dataset-detail/DeepResearchBench

CVDP

发布单位：

NVIDIA

发布时间：

2025-06-17

评测集简介：

CVDP 是一个面向大型语言模型与智能体系统的综合性评测基准，专用于评估其在硬件设计与验证任务中的能力表现。该基准涵盖 13 类任务类型，共计 783 个问题，聚焦于 RTL（寄存器传输级）代码生成、验证、调试、规范一致性检查以及技术问答等关键环节。

评测集社区链接：

https://hub.opencompass.org.cn/dataset-detail/CVDP

PersonaLens

发布单位：

University of Edinburgh, Amazon, UCL

发布时间：

2025-06-11

评测集简介：

PersonaLens 用来测试对话式 AI 助手是否能“理解用户是谁、喜欢什么、需要什么”。它通过丰富的用户画像和互动历史，评估助手在不同个性偏好下完成任务的表现，覆盖超 100 项任务，涉及 20 个真实应用领域。

评测集社区链接：

https://hub.opencompass.org.cn/dataset-detail/PersonaLens

OPT-BENCH

发布单位：

Tong Ji University , Shanghai AI Lab , Nanjing University , Zhejiang University

发布时间：

2025-06-12

评测集简介：

OPT-BENCH 用来测试大语言模型是否能在复杂问题中“越想越聪明”。它收录了 30 个高难度任务，包括 Kaggle 上的真实机器学习挑战和经典 NP 优化问题，覆盖预测建模、图论和组合优化等领域，专门评估模型的迭代推理与优化能力。

评测集社区链接：

https://hub.opencompass.org.cn/dataset-detail/OPT-BENCH

代码

SWE-bench-Live

发布单位：

Microsoft

发布时间：

2025-06-01

评测集简介：

SWE-bench-Live 是一个面向大语言模型和智能体的实时可更新评测基准，专注于真实世界软件缺陷修复任务。该基准从 2024 年以来的 GitHub 活跃仓库中自动收集了 1,319 个问题修复任务，涵盖 93 个项目，并为每个任务提供可复现的 Docker 执行环境。

评测集社区链接：

https://hub.opencompass.org.cn/dataset-detail/SWE-bench-Live

RDB2G-Bench

发布单位：

Kumo.AI , Kim Jaechul Graduate School of AI, KAIST

发布时间：

2025-06-02

评测集简介：

RDB2G-Bench 用来测试 AI 能否把传统数据库自动转换成图结构，并用图神经网络完成预测任务。它支持多种建模方式（包括 LLM），收录 5 个真实数据库、12 项任务，总计生成约 5 万个图模型和评估结果，适合高效、可复现的实验。

评测集社区链接：

https://hub.opencompass.org.cn/dataset-detail/RDB2G-Bench

WebUIBench

发布单位：

The Chinese University of HongKong,HongKong SAR,China ,etc.

发布时间：

2025-06-09

评测集简介：

WebUIBench 用来测试多模态大模型能否“看懂网页界面、写出对应代码”。它聚焦四项核心能力：界面识别、HTML 编程、界面-代码理解和整体转换。数据集来自 700 多个真实网站，共包含 21,000 个高质量问答对，支持对模型在不同阶段的表现进行细粒度分析。

评测集社区链接：

https://hub.opencompass.org.cn/dataset-detail/WebUI-Bench

ALE-Bench

发布单位：

SakanaAI, Japan , The University of Tokyo, Japan , AtCoder, etc.

发布时间：

2025-06-10

评测集简介：

ALE-Bench 用来测试 AI 是否能在长期复杂任务中做出聪明决策。它从 AtCoder 启发式竞赛中引入真实问题，覆盖路径规划、人员调度、生产计划、电网平衡等实际场景，挑战模型在难度极高的优化任务中解决问题的能力。

评测集社区链接：

https://hub.opencompass.org.cn/dataset-detail/ALE-Bench

SWE-Factory

发布单位：SunYat-senUniversity , IndependentResearcher , Huawei.

发布时间：

2025-06-12

评测集简介：

SWE-Factory 用来测试大语言模型修 Bug 的能力。它自动搭建多智能体环境，并结合真实运行结果进行评分，确保测试高效且可靠。数据集覆盖 4 种编程语言，共包含 671 个真实问题，支持自动化、可扩展的评估流程。

评测集社区链接：

https://hub.opencompass.org.cn/dataset-detail/SWE-Factory

SEC-bench

发布单位：University of Illinois Urbana-Champaign , Purdue University

发布时间：

2025-06-13

评测集简介：

SEC-bench 用来测试大语言模型是否能发现并修复真实软件漏洞。它通过多智能体系统自动搭建测试环境，复现漏洞、生成补丁，覆盖漏洞验证和修复两个关键任务，数据集包含数百个真实安全案例。

评测集社区链接：

https://hub.opencompass.org.cn/dataset-detail/SEC-bench

其他

RewardBench

发布单位：

Allen Institute for Artificial Intelligence , University of Washington , Cohere

发布时间：

2025-06-02

评测集简介：

RewardBench 用来测试奖励模型在“选出最合适回答”方面的综合能力。它设置了 100 多个全新的人类提示语，每题给出 4 个备选答案，让模型从中选出最优选项。评估覆盖六个关键维度：事实准确性、指令遵循、数学推理、安全性、聚焦性，以及稳定性。

评测集社区链接：

https://hub.opencompass.org.cn/dataset-detail/RewardBench

ByteMorph

发布单位：

ByteDance Seed , University of Southern California , University of Tokyo , etc.

发布时间：

2025-06-03

评测集简介：

ByteMorph 用来测试图像生成模型在“复杂动态编辑”场景下的表现，比如镜头移动、物体变形、人物动作或交互变化。数据集中包含超过 600 万对高清图像编辑样本，覆盖多种非刚性运动类型，支持对模型在细节变化下的处理能力进行精细评估。

评测集社区链接：

https://hub.opencompass.org.cn/dataset-detail/ByteMorph

HtFLlib

发布单位：

Shanghai Jiao Tong University , Beihang University , Chongqing University , Tongji University , etc.

发布时间：

2025-06-04

评测集简介：

HtFLlib 是一个面向异构联邦学习算法的综合评测基准，旨在衡量不同模型架构在非 IID 数据环境中的协同学习能力。评测对象覆盖图像、文本与传感信号三类模型，总计 40 个架构及 10 种代表性方法。

评测集社区链接：

https://hub.opencompass.org.cn/dataset-detail/HtFLlib

EditInspector

发布单位：

The Hebrew University of Jerusalem , TelAviv University , Google Research

发布时间：

2025-06-11

评测集简介：

EditInspector 用来测试图像编辑模型是否能“听懂文字，改图准确”。它通过 983 条人工标注样本，评估模型在编辑准确性、画面一致性和语义合理性三个维度的表现，覆盖 MagicBrush、Imagen3、UltraEdit 等多种典型任务和模型。

评测集社区链接：

https://hub.opencompass.org.cn/dataset-detail/EditInspector

ClimateViz

发布单位：

University of Oxford

发布时间：

2025-06-11

评测集简介：

ClimateViz 用来测试大模型能否“看懂气候图表、判断说法对不对”。它收录来自 NOAA 和英国气象局等机构的约 2,800 张科学图表和近 5 万条主张，每条主张都标注为“支持”“反驳”或“信息不足”，用于评估模型的事实核查与统计推理能力。

评测集社区链接：

https://hub.opencompass.org.cn/dataset-detail/ClimateViz

ViStoryBench

发布单位：

Shanghai Tech University , StepFun , AIGC Research , AGI Lab, Westlake University

发布时间：

2025-06-25

评测集简介：

ViStoryBench 是一个面向故事可视化任务的综合性评测基准，该基准涵盖多样化故事类型和艺术风格，包含 80 个故事片段，344 个独特角色及 509 张参考图像，覆盖儿童绘本奇幻文学等多领域场景。

评测集社区链接：

https://hub.opencompass.org.cn/dataset-detail/ViStoryBench

司南评测集社区 6 月上新介绍就到这里了。