每日 AI 评测速递来啦（11.18）

最新推荐文章于 2025-12-02 23:40:44 发布

原创最新推荐文章于 2025-12-02 23:40:44 发布 · 391 阅读

·

4

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #大模型评测 #司南评测 #大模型 #多模态模型

司南·Daily Benchmark 专区今日上新！

https://hub.opencompass.org.cn/daily-benchmark-list/week/2025-W47

AAI Scale

一个受卡尔达肖夫等级启发但可操作的自主 AI（Autonomous AI, AAI）量表，用于衡量从固定的机器人流程自动化（AAI-0）到完全通用人工智能（AAI-4）及更高级别的进展。

https://hub.opencompass.org.cn/daily-benchmark-detail/2511%2013411

PAL-Bench

用于评估面向服务的助手在长期用户交互中的个性化能力，创新性地设置了需求重述、方案推荐和多轮对话三大任务，全面评估系统对用户偏好和主观需求的建模能力。

https://hub.opencompass.org.cn/daily-benchmark-detail/2511%2013410

SpatialSky-Bench

一个专门用于评估 VLMs 在无人机导航中空间智能能力的综合基准。基准分为两大类——环境感知和场景理解，共包含 13 个子类别，包括边界框、颜色、距离、高度以及着陆安全分析等。对多种主流开源和闭源 VLMs 的广泛评测显示，在复杂无人机导航场景中，其表现仍不理想，凸显了其空间能力存在显著差距。

https://hub.opencompass.org.cn/daily-benchmark-detail/2511%2013269

GeoX-Bench

一个综合性基准，旨在探索和评估 LMMs 在跨视角地理定位和位姿估计中的能力，包含 10,859 对全景-卫星图像，覆盖 49 个国家的 128 个城市，并配备 755,976 对问答数据。其中，42,900 对问答数据被用于基准测试，其余数据用于增强 LMM 的能力。

https://hub.opencompass.org.cn/daily-benchmark-detail/2511%2013259

PRBench

一个面向法律与金融领域的开放性、高难度专业推理基准，包含 1,100 个专家撰写的任务和 19,356 条评分标准，由 182 名资深专业人士贡献。评测显示当前领先模型在 Hard 任务上表现仍低，常见问题包括判断不准、推理不完整和缺乏透明性，凸显模型在高风险专业场景下的可靠性仍有显著提升空间。

https://hub.opencompass.org.cn/daily-benchmark-detail/2511%2011562

ARCHE Bench

是为评估大型语言模型科学推理能力而设计的新型基准数据集。数据集来源于 70 篇 Nature Communications 文章，包含超过 1,900 个参考文献和 38,000 个观点。

https://hub.opencompass.org.cn/daily-benchmark-detail/2511%2012485

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。