每日 AI 评测速递来啦(12.18)

司南·Daily Benchmark 专区今日上新!

RE2-Bench
 一个面向真实世界复杂代码的推理评测基准,包含 1,101 个代码推理问题,其中 195 个问题来自成熟的真实世界项目。
https://hub.opencompass.org.cn/daily-benchmark-detail/2512%2014917

ViF-Bench                          
一个面向可解释 AI 生成视频检测的评测基准,包含 3,000 个由十余种最先进视频生成模型产生的高质量样本。
https://hub.opencompass.org.cn/daily-benchmark-detail/2512%2015693

TimeLens-Bench
一个面向视频时间定位(VTG)的高质量评测基准,通过对多个主流数据集进行严格标准下的重新标注,用于可靠评估多模态大模型的时间定位能力。
https://hub.opencompass.org.cn/daily-benchmark-detail/2512%2014698

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值