每日 AI 评测速递来啦(12.11)

司南·Daily Benchmark 专区今日上新!

RVE-Bench

一个综合评测基准,包含基于推理的视频编辑和上下文视频生成两个互补子集,用于系统化评估模型在物理合理性和因果动态下的推理驱动视频编辑能力。

https://hub.opencompass.org.cn/daily-benchmark-detail/2512%2009924

LISN-Bench

首个基于仿真的语言指令社会感知导航评测基准,构建于 Rosnav-Arena 3.0 之上,是第一个将指令遵循与场景理解纳入多样化环境的标准化社会感知导航评测。

https://hub.opencompass.org.cn/daily-benchmark-detail/2512%2009920

IF-Bench

首个高质量的红外图像多模态理解评测基准,由 23 个红外数据集中的 499 张图像及 680 条精心筛选的视觉问答对组成,覆盖图像理解的 10 个核心维度。

https://hub.opencompass.org.cn/daily-benchmark-detail/2512%2009663

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值