司南·Daily Benchmark 专区今日上新!
SH-Bench
首个用于评估音频大模型“选择性听觉”能力的基准:模型既要能够聚焦于目标主说话人,同时必须拒绝处理或泄露关于无关路人的语音信息。
https://hub.opencompass.org.cn/daily-benchmark-detail/2512%2006380
ADGV-Bench
一个聚焦驾驶场景的视频基准数据集,用于评估 AI 生成驾驶视频(AIGVs)在多大程度上能够可靠支撑自动驾驶模型的训练与评测。
https://hub.opencompass.org.cn/daily-benchmark-detail/2512%2006376
9980

被折叠的 条评论
为什么被折叠?



