司南·Daily Benchmark 专区今日上新!
Tri-Bench
一个用于诊断 VLM 在相机姿态变化与物体干扰条件下空间推理稳健性的全新可控基准。
https://hub.opencompass.org.cn/daily-benchmark-detail/2512%2008860
OpenVE-Bench
一个统一评测基准,包含 431 组视频编辑样本,通过三项与人类评价高度一致的指标,系统评估指令式视频编辑模型的性能。
https://hub.opencompass.org.cn/daily-benchmark-detail/2512%2007826
MICo-Bench
一个多图像组合评测基准,涵盖每个任务的标准样例和复杂的拆解重组样例,用于全面评估模型的组合能力。
https://hub.opencompass.org.cn/daily-benchmark-detail/2512%2007348
CS-Bench
一个图表空间理解评测基准,用于全面评估多模态大模型对图表视觉结构的理解能力。
https://hub.opencompass.org.cn/daily-benchmark-detail/2512%2007186
870

被折叠的 条评论
为什么被折叠?



