司南·Daily Benchmark 专区今日上新!
MVI-Bench
首个专门评估大型视觉-语言模型(LVLM)在面对误导性视觉输入时鲁棒性的综合基准。MVI-Bench 基于视觉原语,将误导性输入分为视觉概念、视觉属性和视觉关系三个层级,涵盖六类典型场景,并包含 1,248 个专家标注的视觉问答实例。
https://hub.opencompass.org.cn/daily-benchmark-detail/2511%2014159

司南·Daily Benchmark 专区今日上新!
MVI-Bench
首个专门评估大型视觉-语言模型(LVLM)在面对误导性视觉输入时鲁棒性的综合基准。MVI-Bench 基于视觉原语,将误导性输入分为视觉概念、视觉属性和视觉关系三个层级,涵盖六类典型场景,并包含 1,248 个专家标注的视觉问答实例。
https://hub.opencompass.org.cn/daily-benchmark-detail/2511%2014159

1984
775
942
713
521

被折叠的 条评论
为什么被折叠?