司南评测集社区 CompassHub 作为司南评测体系的重要组成部分,旨在打造创新性的基准测试资源导航社区,提供丰富、及时、专业的评测集信息,帮助研究人员和行业人士快速搜索和使用评测集。
2025 年 6 月,司南评测集社区新收录 30+ 个评测基准,聚焦多模态理解、智能体、代码等多个前沿领域。以下为本月部分新增评测基准的详细介绍。
司南评测集社区链接:
https://hub.opencompass.org.cn/home
多模态理解
MVPBench
发布单位:
Central South University
发布时间:
2025-06-02
评测集简介:
MVPBench 专注于视觉物理推理中的视觉链式思维(CoT)能力评估。它特别关注模型能否像人类一样,依据图片一步步进行逻辑推理,而不是依赖文字提示直接得出结论。
评测集社区链接:
https://hub.opencompass.org.cn/dataset-detail/MVPBench
MORSE-500
发布单位:
University of Maryland
发布时间:
2025-06-05
评测集简介:
MORSE-500 是一个用来测试多模态看视频后是否能“理解逻辑关系”的数据集,包含六种推理类别(抽象、数学、物理、规划、空间和时间)的 500 个程序生成视频,用于测试多模态推理能力。
评测集社区链接:
https://hub.opencompass.org.cn/dataset-detail/MORSE-500
VideoMathQA
发布单位:
MBZUAI,University of California Merced,Google Research,etc
发布时间:
2025-06-05
评测集简介:
VideoMathQA 是一个用于评估多模态模型在视频场景下数学推理能力的评测集。该数据集要求模型同时理解视频中的视觉、音频和文本信息,处理长度从 10 秒到 1 小时不等的内容,包括几何、统计、算术和图表等 10 个领域。
评测集社区链接:
https://hub.opencompass.org.cn/dataset-detail/VideoMathQA
CausalVQA
发布单位:
FAIR at Meta
发布时间:
2025-06-11
评测集简介:
CausalVQA 是一个用于评估多模态模型因果推理能力的视频问答数据集。它涵盖反事实、假设、预判、规划和描述五类问题,考察模型对事件结果与行为后果的理解与预测能力。
评测集社区链接:
https://hub.opencompass.org.cn/dataset-detail/CausalVQA
IntPhys2
发布单位:
FAIR at Meta
发布时间:
2025-06-11
评测集简介:
IntPhys2 是一个评估模型物理直觉理解的视频基准,涵盖 5 个场景、60 个视频,聚焦物体恒存性、不变性、时空连续性与坚实性等常识原则。
评测集社区链接:
https://hub.opencompass.org.cn/dataset-detail/IntPhys2
智能体
Orak
发布单位:
KRAFTON , SeoulNationalUniversity , NVIDIA , UniversityofWisconsin-Madison
发布时间:
2025-06-04
评测集简介:
Orak 是一个面向大语言模型智能体的评测平台,用于测试它们在多种视频游戏环境中的表现。该基准涵盖 12 款真实热门游戏,覆盖动作、冒险、角色扮演、模拟、策略和解谜六大类型,构建了一个全面、多样的测试场景,用于评估智能体的游戏理解与任务执行能力。
评测集社区链接:
https://hub.opencompass.org.cn/dataset-detail/Orak
AssetOpsBench
发布单位:
IBMResearch-Yorktown , IBMResearch-Ireland
发布时间:
2025-06-04
评测集简介:
AssetOpsBench 用来测试大模型和智能体是否能胜任“工业现场的运维任务”。它评估模型在故障诊断、任务规划、合规审查等方面的能力,收录 1,000 个来自真实场景的问题,覆盖 20 多个领域。
评测集社区链接:
https://hub.opencompass.org.cn/dataset-detail/AssetOpsBench
DeepResearchBench
发布单位:
University of Science and Technology of China , Metastone Technology, Beijing, China
发布时间:
2025-06-13
评测集简介:
DeepResearch Bench 用来测试大语言模型能不能胜任“博士级别”的研究任务。它由 22 个领域的专家设计,共包含 100 个高难度课题,覆盖多个专业方向,专为评估模型在复杂研究场景中的真实表现。
评测集社区链接:
https://hub.opencompass.org.cn/dataset-detail/DeepResearchBench
CVDP
发布单位:
NVIDIA
发布时间:
2025-06-17
评测集简介:
CVDP 是一个面向大型语言模型与智能体系统的综合性评测基准,专用于评估其在硬件设计与验证任务中的能力表现。该基准涵盖 13 类任务类型,共计 783 个问题,聚焦于 RTL(寄存器传输级)代码生成、验证、调试、规范一致性检查以及技术问答等关键环节。
评测集社区链接:
https://hub.opencompass.org.cn/dataset-detail/CVDP
PersonaLens
发布单位:
University of Edinburgh, Amazon, UCL
发布时间:
2025-06-11
评测集简介:
PersonaLens 用来测试对话式 AI 助手是否能“理解用户是谁、喜欢什么、需要什么”。它通过丰富的用户画像和互动历史,评估助手在不同个性偏好下完成任务的表现,覆盖超 100 项任务,涉及 20 个真实应用领域。
评测集社区链接:
https://hub.opencompass.org.cn/dataset-detail/PersonaLens
OPT-BENCH
发布单位:
Tong Ji University , Shanghai AI Lab , Nanjing University , Zhejiang University
发布时间:
2025-06-12
评测集简介:
OPT-BENCH 用来测试大语言模型是否能在复杂问题中“越想越聪明”。它收录了 30 个高难度任务,包括 Kaggle 上的真实机器学习挑战和经典 NP 优化问题,覆盖预测建模、图论和组合优化等领域,专门评估模型的迭代推理与优化能力。
评测集社区链接:
https://hub.opencompass.org.cn/dataset-detail/OPT-BENCH
代码
SWE-bench-Live
发布单位:
Microsoft
发布时间:
2025-06-01
评测集简介:
SWE-bench-Live 是一个面向大语言模型和智能体的实时可更新评测基准,专注于真实世界软件缺陷修复任务。 该基准从 2024 年以来的 GitHub 活跃仓库中自动收集了 1,319 个问题修复任务,涵盖 93 个项目,并为每个任务提供可复现的 Docker 执行环境。
评测集社区链接:
https://hub.opencompass.org.cn/dataset-detail/SWE-bench-Live
RDB2G-Bench
发布单位:
Kumo.AI , Kim Jaechul Graduate School of AI, KAIST
发布时间:
2025-06-02
评测集简介:
RDB2G-Bench 用来测试 AI 能否把传统数据库自动转换成图结构,并用图神经网络完成预测任务。它支持多种建模方式(包括 LLM),收录 5 个真实数据库、12 项任务,总计生成约 5 万个图模型和评估结果,适合高效、可复现的实验。
评测集社区链接:
https://hub.opencompass.org.cn/dataset-detail/RDB2G-Bench
WebUIBench
发布单位:
The Chinese University of HongKong,HongKong SAR,China ,etc.
发布时间:
2025-06-09
评测集简介:
WebUIBench 用来测试多模态大模型能否“看懂网页界面、写出对应代码”。它聚焦四项核心能力:界面识别、HTML 编程、界面-代码理解和整体转换。数据集来自 700 多个真实网站,共包含 21,000 个高质量问答对,支持对模型在不同阶段的表现进行细粒度分析。
评测集社区链接:
https://hub.opencompass.org.cn/dataset-detail/WebUI-Bench
ALE-Bench
发布单位:
SakanaAI, Japan , The University of Tokyo, Japan , AtCoder, etc.
发布时间:
2025-06-10
评测集简介:
ALE-Bench 用来测试 AI 是否能在长期复杂任务中做出聪明决策。它从 AtCoder 启发式竞赛中引入真实问题,覆盖路径规划、人员调度、生产计划、电网平衡等实际场景,挑战模型在难度极高的优化任务中解决问题的能力。
评测集社区链接:
https://hub.opencompass.org.cn/dataset-detail/ALE-Bench
SWE-Factory
发布单位:SunYat-senUniversity , IndependentResearcher , Huawei.
发布时间:
2025-06-12
评测集简介:
SWE-Factory 用来测试大语言模型修 Bug 的能力。它自动搭建多智能体环境,并结合真实运行结果进行评分,确保测试高效且可靠。数据集覆盖 4 种编程语言,共包含 671 个真实问题,支持自动化、可扩展的评估流程。
评测集社区链接:
https://hub.opencompass.org.cn/dataset-detail/SWE-Factory
SEC-bench
发布单位:University of Illinois Urbana-Champaign , Purdue University
发布时间:
2025-06-13
评测集简介:
SEC-bench 用来测试大语言模型是否能发现并修复真实软件漏洞。它通过多智能体系统自动搭建测试环境,复现漏洞、生成补丁,覆盖漏洞验证和修复两个关键任务,数据集包含数百个真实安全案例。
评测集社区链接:
https://hub.opencompass.org.cn/dataset-detail/SEC-bench
其他
RewardBench
发布单位:
Allen Institute for Artificial Intelligence , University of Washington , Cohere
发布时间:
2025-06-02
评测集简介:
RewardBench 用来测试奖励模型在“选出最合适回答”方面的综合能力。它设置了 100 多个全新的人类提示语,每题给出 4 个备选答案,让模型从中选出最优选项。评估覆盖六个关键维度:事实准确性、指令遵循、数学推理、安全性、聚焦性,以及稳定性。
评测集社区链接:
https://hub.opencompass.org.cn/dataset-detail/RewardBench
ByteMorph
发布单位:
ByteDance Seed , University of Southern California , University of Tokyo , etc.
发布时间:
2025-06-03
评测集简介:
ByteMorph 用来测试图像生成模型在“复杂动态编辑”场景下的表现,比如镜头移动、物体变形、人物动作或交互变化。数据集中包含超过 600 万对高清图像编辑样本,覆盖多种非刚性运动类型,支持对模型在细节变化下的处理能力进行精细评估。
评测集社区链接:
https://hub.opencompass.org.cn/dataset-detail/ByteMorph
HtFLlib
发布单位:
Shanghai Jiao Tong University , Beihang University , Chongqing University , Tongji University , etc.
发布时间:
2025-06-04
评测集简介:
HtFLlib 是一个面向异构联邦学习算法的综合评测基准,旨在衡量不同模型架构在非 IID 数据环境中的协同学习能力。评测对象覆盖图像、文本与传感信号三类模型,总计 40 个架构及 10 种代表性方法。
评测集社区链接:
https://hub.opencompass.org.cn/dataset-detail/HtFLlib
EditInspector
发布单位:
The Hebrew University of Jerusalem , TelAviv University , Google Research
发布时间:
2025-06-11
评测集简介:
EditInspector 用来测试图像编辑模型是否能“听懂文字,改图准确”。它通过 983 条人工标注样本,评估模型在编辑准确性、画面一致性和语义合理性三个维度的表现,覆盖 MagicBrush、Imagen3、UltraEdit 等多种典型任务和模型。
评测集社区链接:
https://hub.opencompass.org.cn/dataset-detail/EditInspector
ClimateViz
发布单位:
University of Oxford
发布时间:
2025-06-11
评测集简介:
ClimateViz 用来测试大模型能否“看懂气候图表、判断说法对不对”。它收录来自 NOAA 和英国气象局等机构的约 2,800 张科学图表和近 5 万条主张,每条主张都标注为“支持”“反驳”或“信息不足”,用于评估模型的事实核查与统计推理能力。
评测集社区链接:
https://hub.opencompass.org.cn/dataset-detail/ClimateViz
ViStoryBench
发布单位:
Shanghai Tech University , StepFun , AIGC Research , AGI Lab, Westlake University
发布时间:
2025-06-25
评测集简介:
ViStoryBench 是一个面向故事可视化任务的综合性评测基准,该基准涵盖多样化故事类型和艺术风格,包含 80 个故事片段,344 个独特角色及 509 张参考图像,覆盖儿童绘本奇幻文学等多领域场景。
评测集社区链接:
https://hub.opencompass.org.cn/dataset-detail/ViStoryBench
司南评测集社区 6 月上新介绍就到这里了。