每日 AI 评测速递来啦(11.18)

司南·Daily Benchmark 专区今日上新!

https://hub.opencompass.org.cn/daily-benchmark-list/week/2025-W47

AAI Scale

一个受卡尔达肖夫等级启发但可操作的自主 AI(Autonomous AI, AAI)量表,用于衡量从固定的机器人流程自动化(AAI-0)到完全通用人工智能(AAI-4)及更高级别的进展。

https://hub.opencompass.org.cn/daily-benchmark-detail/2511%2013411

PAL-Bench

用于评估面向服务的助手在长期用户交互中的个性化能力,创新性地设置了需求重述、方案推荐和多轮对话三大任务,全面评估系统对用户偏好和主观需求的建模能力。

https://hub.opencompass.org.cn/daily-benchmark-detail/2511%2013410

SpatialSky-Bench

一个专门用于评估 VLMs 在无人机导航中空间智能能力的综合基准。基准分为两大类——环境感知场景理解,共包含 13 个子类别,包括边界框、颜色、距离、高度以及着陆安全分析等。对多种主流开源和闭源 VLMs 的广泛评测显示,在复杂无人机导航场景中,其表现仍不理想,凸显了其空间能力存在显著差距。

https://hub.opencompass.org.cn/daily-benchmark-detail/2511%2013269

GeoX-Bench

一个综合性基准,旨在探索和评估 LMMs 在跨视角地理定位和位姿估计中的能力,包含 10,859 对全景-卫星图像,覆盖 49 个国家的 128 个城市,并配备 755,976 对问答数据。其中,42,900 对问答数据被用于基准测试,其余数据用于增强 LMM 的能力。

https://hub.opencompass.org.cn/daily-benchmark-detail/2511%2013259

PRBench

一个面向法律与金融领域的开放性、高难度专业推理基准,包含 1,100 个专家撰写的任务和 19,356 条评分标准,由 182 名资深专业人士贡献。评测显示当前领先模型在 Hard 任务上表现仍低,常见问题包括判断不准、推理不完整和缺乏透明性,凸显模型在高风险专业场景下的可靠性仍有显著提升空间。

https://hub.opencompass.org.cn/daily-benchmark-detail/2511%2011562

ARCHE Bench

是为评估大型语言模型科学推理能力而设计的新型基准数据集。数据集来源于 70 篇 Nature Communications 文章,包含超过 1,900 个参考文献和 38,000 个观点。

https://hub.opencompass.org.cn/daily-benchmark-detail/2511%2012485

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值