司南·Daily Benchmark 专区今日上新!
https://hub.opencompass.org.cn/daily-benchmark-list/week/2025-W47
AAI Scale
一个受卡尔达肖夫等级启发但可操作的自主 AI(Autonomous AI, AAI)量表,用于衡量从固定的机器人流程自动化(AAI-0)到完全通用人工智能(AAI-4)及更高级别的进展。
https://hub.opencompass.org.cn/daily-benchmark-detail/2511%2013411
PAL-Bench
用于评估面向服务的助手在长期用户交互中的个性化能力,创新性地设置了需求重述、方案推荐和多轮对话三大任务,全面评估系统对用户偏好和主观需求的建模能力。
https://hub.opencompass.org.cn/daily-benchmark-detail/2511%2013410
SpatialSky-Bench
一个专门用于评估 VLMs 在无人机导航中空间智能能力的综合基准。基准分为两大类——环境感知和场景理解,共包含 13 个子类别,包括边界框、颜色、距离、高度以及着陆安全分析等。对多种主流开源和闭源 VLMs 的广泛评测显示,在复杂无人机导航场景中,其表现仍不理想,凸显了其空间能力存在显著差距。
https://hub.opencompass.org.cn/daily-benchmark-detail/2511%2013269
GeoX-Bench
一个综合性基准,旨在探索和评估 LMMs 在跨视角地理定位和位姿估计中的能力,包含 10,859 对全景-卫星图像,覆盖 49 个国家的 128 个城市,并配备 755,976 对问答数据。其中,42,900 对问答数据被用于基准测试,其余数据用于增强 LMM 的能力。
https://hub.opencompass.org.cn/daily-benchmark-detail/2511%2013259
PRBench
一个面向法律与金融领域的开放性、高难度专业推理基准,包含 1,100 个专家撰写的任务和 19,356 条评分标准,由 182 名资深专业人士贡献。评测显示当前领先模型在 Hard 任务上表现仍低,常见问题包括判断不准、推理不完整和缺乏透明性,凸显模型在高风险专业场景下的可靠性仍有显著提升空间。
https://hub.opencompass.org.cn/daily-benchmark-detail/2511%2011562
ARCHE Bench
是为评估大型语言模型科学推理能力而设计的新型基准数据集。数据集来源于 70 篇 Nature Communications 文章,包含超过 1,900 个参考文献和 38,000 个观点。
https://hub.opencompass.org.cn/daily-benchmark-detail/2511%2012485
9045

被折叠的 条评论
为什么被折叠?



