每日 AI 评测速递来啦(12.30)
司南·Daily Benchmark 专区今日上新!
SpatialMosaic-Bench
一个面向多模态大模型真实且高难度多视角场景的空间推理评测基准,涵盖 6 类任务、共 100 万条问答对。
https://hub.opencompass.org.cn/daily-benchmark-detail/2512%2023365
ProfASR-Bench
一个面向金融、医疗、法律与科技等高风险应用场景的专业语音评测基准。
https://hub.opencompass.org.cn/daily-benchmark-detail/2512%2023686
MWE-Bench
一个专门为评估工具集成推理智能体设计的基准,涵盖多模态、多步推理任务,用于测试智能体在自主工具调用与复杂决策场景下的表现。
https://hub.opencompass.org.cn/daily-benchmark-detail/2512%2023412
、
378

被折叠的 条评论
为什么被折叠?



