司南·Daily Benchmark 专区今日上新!
RE2-Bench
一个面向真实世界复杂代码的推理评测基准,包含 1,101 个代码推理问题,其中 195 个问题来自成熟的真实世界项目。
https://hub.opencompass.org.cn/daily-benchmark-detail/2512%2014917
ViF-Bench
一个面向可解释 AI 生成视频检测的评测基准,包含 3,000 个由十余种最先进视频生成模型产生的高质量样本。
https://hub.opencompass.org.cn/daily-benchmark-detail/2512%2015693
TimeLens-Bench
一个面向视频时间定位(VTG)的高质量评测基准,通过对多个主流数据集进行严格标准下的重新标注,用于可靠评估多模态大模型的时间定位能力。
https://hub.opencompass.org.cn/daily-benchmark-detail/2512%2014698
1566

被折叠的 条评论
为什么被折叠?



