司南·Daily Benchmark 专区今日上新!
RVE-Bench
一个综合评测基准,包含基于推理的视频编辑和上下文视频生成两个互补子集,用于系统化评估模型在物理合理性和因果动态下的推理驱动视频编辑能力。
https://hub.opencompass.org.cn/daily-benchmark-detail/2512%2009924
LISN-Bench
首个基于仿真的语言指令社会感知导航评测基准,构建于 Rosnav-Arena 3.0 之上,是第一个将指令遵循与场景理解纳入多样化环境的标准化社会感知导航评测。
https://hub.opencompass.org.cn/daily-benchmark-detail/2512%2009920
IF-Bench
首个高质量的红外图像多模态理解评测基准,由 23 个红外数据集中的 499 张图像及 680 条精心筛选的视觉问答对组成,覆盖图像理解的 10 个核心维度。
https://hub.opencompass.org.cn/daily-benchmark-detail/2512%2009663
1285

被折叠的 条评论
为什么被折叠?



