司南·Daily Benchmark 专区今日上新!
Bench-Push
首个面向基于推操作的移动机器人导航与操作任务的统一评测基准。
https://hub.opencompass.org.cn/daily-benchmark-detail/2512%2011736
Complex-PIE-Bench
一个复杂图像编辑评测基准,用于系统评估复杂编辑场景下的模型能力。
https://hub.opencompass.org.cn/daily-benchmark-detail/2512%2011395
UFVideo-Bench
一个多粒度视频理解评测基准,包含全局、像素和时间尺度的协同任务,用于系统评估视频大语言模型在多粒度协作理解能力上的表现。
https://hub.opencompass.org.cn/daily-benchmark-detail/2512%2011336
1566

被折叠的 条评论
为什么被折叠?



