司南·Daily Benchmark 专区今日上新!
O3-Bench
一个用于评估多模态推理能力的新型评测基准,其核心特点是要求模型在推理过程中交替、精细地关注图像中的关键视觉细节。
https://hub.opencompass.org.cn/daily-benchmark-detail/2512%2018745
MAG-Bench
一个用于严格评测长视频生成中历史记忆保留能力的基准,重点衡量模型在长期场景一致性与上下文记忆方面的表现。
https://hub.opencompass.org.cn/daily-benchmark-detail/2512%2018741
1912

被折叠的 条评论
为什么被折叠?



