司南·Daily Benchmark 专区今日上新!
MPR-GUI-Bench
一个面向多语言、细粒度感知与推理的 GUI 基准,用于评估 GUI 智能体的感知与推理能力。
https://hub.opencompass.org.cn/daily-benchmark-detail/2512%2000756
Dr.Mi-Bench
一个面向科学自动化深度研究的模块化综合基准,包含一个人工标注的数据集,涵盖 10 个科学领域,共 200 个实例,包括研究论文和综述论文。
https://hub.opencompass.org.cn/daily-benchmark-detail/2512%2000986
GroundedAR-Bench
一个用于评估增强现实系统在真实环境中,基于语言条件的空间落地、三维定位精度以及多种室内场景下关系推理能力的基准及任务套件。
https://hub.opencompass.org.cn/daily-benchmark-detail/2512%2000294
RealAppliance-Bench
一个用于评测多模态大模型和具身操作规划模型在家电操作规划中的关键任务表现,包括:手册页面检索、家电部件定位、开环操作规划以及闭环操作调整。
https://hub.opencompass.org.cn/daily-benchmark-detail/2512%2000287
ML-Tool-Bench
一个面向工具增强型机器学习智能体的综合评测基准,旨在系统考察智能体在端到端数据科学流程中的规划、调用工具及管理中间结果的能力。
https://hub.opencompass.org.cn/daily-benchmark-detail/2512%2000672

被折叠的 条评论
为什么被折叠?



