司南·Daily Benchmark 专区今日上新!
ADR-Bench
一个面向中文领域、贴近真实应用场景的深度研究评测基准,用于弥补现有评测在开放式研究智能体能力上的不足。
https://hub.opencompass.org.cn/daily-benchmark-detail/2512%2020491
Cube Bench
一个以魔方为载体的评测基准,用于系统评估多模态大模型的空间推理与时序推理能力。
https://hub.opencompass.org.cn/daily-benchmark-detail/2512%2020595
277

被折叠的 条评论
为什么被折叠?



