随着多模态大模型的快速崛起,图像与语言深度融合正在重新定义内容生产方式。从 Gemini-Flash-2.0 到 GPT-4o-Image,这些 “理解-生成一体化” 模型为视觉编辑场景带来了惊人的能力。然而,当指令从简单元素编辑 (如添加 / 删去物体,更改颜色) 逐步走向更复杂的逻辑、因果和时间关联时,传统的视觉编辑评测方法就显得力不从心。如何量化一个模型是否真正“读懂”并完成深度推理型编辑,成为 AI 发展面临的全新难题。
为此,上海人工智能实验室司南评测体系联手上海交通大学、同济大学、武汉大学、普林斯顿大学提出了推理视觉编辑评测基准 RISEBench(Benchmarking Reasoning-Informed ViSual Editing)以填补了这一空白。RISEBench 以时间推理 (Temporal Reasoning)、因果推理 (Causal Reasoning)、空间推理 (Spatial Reasoning) 和 逻辑推理 (Logical Reasoning) 四大推理能力为核心,共计 360 道高难度题目,旨在测试视觉编辑模型在理解复杂指令、保证内容一致性及视觉合理性方面的能力。
RISEBench 现已上架到司南评测集社区,欢迎访问:
https://hub.opencompass.org.cn/dataset-detail/RISEBench
论文
https://arxiv.org/pdf/2504.02826
GitHub

最低0.47元/天 解锁文章
5万+

被折叠的 条评论
为什么被折叠?



