司南·Daily Benchmark 专区今日上新!
SWE-Bench++
一个从真实 GitHub Pull Request 自动构建的、覆盖 11 种语言的可扩展仓库级代码生成评测基准,用于系统评估和提升大模型在真实软件工程任务中的能力。
https://hub.opencompass.org.cn/daily-benchmark-detail/2512%2017419
RSHR-Bench
一个面向遥感视觉理解与推理的超高分辨率评测基准,包含 5,329 张完整场景影像,图像长边不少于 4,000 像素,单张图像像素量最高约 3×10⁸,数据来源于广泛使用的遥感数据集以及无人机影像集合。
https://hub.opencompass.org.cn/daily-benchmark-detail/2512%2017319
LoRe-Bench
一个用于系统评测大推理模型是否遵循推理定律(LoRe)的基准,重点衡量其推理行为在单调性与可组合性两项关键性质上的表现。
https://hub.opencompass.org.cn/daily-benchmark-detail/2512%2017901

被折叠的 条评论
为什么被折叠?



