司南·Daily Benchmark 专区今日上新!
https://hub.opencompass.org.cn/daily-benchmark-list/week/2025-W47
SHAWSHANK-BENCH
首个用于评估具身智能体间接越狱能力的基准,包含 1,632 条良性指令和 3,957 条恶意指令,覆盖了广泛的任务复杂度与攻击情景。
https://hub.opencompass.org.cn/daily-benchmark-detail/2511%2016347
QVS-Bench
用于系统性评估视觉输入数量与模型空间推理性能之间定量关系的诊断型基准。
https://hub.opencompass.org.cn/daily-benchmark-detail/2511%2016160
Liars' Bench
一个大规模、系统化评测大语言模型“撒谎”行为的基准测试平台,包含超 7 万条来自多模型、多数据集的诚实与撒谎示例,覆盖不同类型的撒谎动机和目标信念。
https://hub.opencompass.org.cn/daily-benchmark-detail/2511%2016035
GEO-Bench-2
一个面向地理空间基础模型(GeoFMs)的综合评估基准,涵盖分类、分割、回归、目标检测和实例分割等任务,使用 19 个许可宽松的数据集进行测试。
https://hub.opencompass.org.cn/daily-benchmark-detail/2511%2015658
1万+

被折叠的 条评论
为什么被折叠?



