RISEBench：四大维度揭示视觉编辑模型强推理生成能力

本文链接：https://blog.youkuaiyun.com/OpenCompass/article/details/149445499

随着多模态大模型的快速崛起，图像与语言深度融合正在重新定义内容生产方式。从 Gemini-Flash-2.0 到 GPT-4o-Image，这些 “理解-生成一体化” 模型为视觉编辑场景带来了惊人的能力。然而，当指令从简单元素编辑 (如添加 / 删去物体，更改颜色) 逐步走向更复杂的逻辑、因果和时间关联时，传统的视觉编辑评测方法就显得力不从心。如何量化一个模型是否真正“读懂”并完成深度推理型编辑，成为 AI 发展面临的全新难题。

为此，上海人工智能实验室司南评测体系联手上海交通大学、同济大学、武汉大学、普林斯顿大学提出了推理视觉编辑评测基准 RISEBench（Benchmarking Reasoning-Informed ViSual Editing）以填补了这一空白。RISEBench 以时间推理 (Temporal Reasoning)、因果推理 (Causal Reasoning)、空间推理 (Spatial Reasoning) 和逻辑推理 (Logical Reasoning) 四大推理能力为核心，共计 360 道高难度题目，旨在测试视觉编辑模型在理解复杂指令、保证内容一致性及视觉合理性方面的能力。

RISEBench 现已上架到司南评测集社区，欢迎访问：

https://hub.opencompass.org.cn/dataset-detail/RISEBench

论文

https://arxiv.org/pdf/2504.02826

GitHub

https://github.com/PhoenixZ810/RISEBench

此前，RISEBench 对包括 GPT-4o-Image、Gemini-Flash-2.0、HiDream-Edit、BAGEL、Step1X-Edit、OmniGen、EMU2、Flux.1 等在内的多款闭源及开源视觉编辑模型进行了系统评估。结果显示，即便最强的 GPT-4o-Image，也只能在少于三成的任务上实现完美完成；Gemini-Flash-2.0 系列的完成率仅在 9%–13% 之间，而开源模型普遍不足 6%，凸显出目前视觉编辑 AI 在深层理解与推理环节依然存在巨大挑战。

在 RISEBench 上对 Qwen-VLo 的探索性评测

近期，针对 Qwen 家族的新模型 Qwen-VLo，联合团队在 RISEBench 框架下开展了小规模定性测试。由于该模型目前仅支持交互式在线使用，且 API 未完全开放，因此本次只在每个难度等级中选取少量具有代表性的问题进行人工定性验证，以探索其推理能力的可行性边界。

本次对 Qwen-VLo 的探索性测评，依然遵循 RISEBench 原本的四大推理能力框架，分别为因果推理（Causal Reasoning）、空间推理（Spatial Reasoning）、时间推理（Temporal Reasoning）、逻辑推理（Logical Reasoning）。同时，为了更精准地刻画模型的能力水平，将每个类别按照难度拆分为三档：

• Easy：代表相对直观、单步、显著特征可观察的编辑任务，GPT-4o-Image 与 Gemini-Flash-2.0 通常都可以较好完成。

• Medium：需要一定的多步逻辑、常识及因果链条，GPT-4o-Image 能够应付，而其他模型普遍出现失误。

• Hard：包含多层约束、复杂时空推理或符号逻辑，GPT-4o-Image 也难以完美完成，属于当前视觉编辑模型的能力极限。

因果推理 (Causal Reasoning)

在因果推理类任务中，Qwen-VLo 在简单（Easy）任务下能够部分捕捉状态变化，勉强实现可用，但随着任务复杂度增加，在中等（Medium）和高难度（Hard）水平的因果场景中，其推理能力明显不足，缺乏多步骤因果链的理解与可解释的生成逻辑。

在简单任务中，例如让模型展示一根打结的绳子被解开后的状态，Qwen-VLo 能够部分松开绳结，表明具备一定的状态转变意识，但细节上仍然保留打结痕迹，未能完整表现「完全解开」。进入中等难度场景，比如车辆在碰撞后的状态，模型未能体现出应有的车体形变或破损，而是仅在车辆表面做出少量随机变化，这种片段式的生成无法呈现合理的因果关系。对于高难度场景，如要求把一张带有图案的纸折叠并让图案朝外，Qwen-VLo 的输出几乎没有遵循任何折叠逻辑，也丢失了图案一致性，完全未能体现多步因果逻辑的思考和执行能力。

空间推理 (Spatial Reasoning)

在空间推理类任务中，其空间组合与视角变化能力暴露出更多弱点。在简单任务中，例如要求Qwen-VLo以俯视角度重绘一个杯子，模型未能遵循指令，依旧输出了正视视角的图像，缺乏必要的视角变换。在中等任务，如将六个水果整齐放入一个篮子，以及在困难任务中需要绘制一个时钟并准确呈现时针、分针、秒针的位置时，Qwen-VLo同样未能按照指令完成，整体表现出对空间结构和多元素排布的理解与执行能力明显不足。

时间推理 (Temporal Reasoning)

时间推理要求模型不仅理解时间线索，还要正确预测特定时间的状态。Qwen-VLo在简单（Easy）时间任务中能够感知部分变化，但在中等（Medium）及困难（Hard）难度下，整体连贯性严重不足。在简单任务下，例如展示食物在煎制五分钟后的变化，Qwen-VLo输出的食物状态稍有改变，但熟化程度明显不够，缺乏足够的时间演变特征。进入中等难度，如模拟物体在下一个涨潮阶段的状态，Qwen-VLo几乎没有体现潮水上涨的视觉信息。对于困难级别的任务，比如描述三小时后沙漏的状态，模型更是基本复现原图，没有任何流沙位置的改变。

逻辑推理 (Logical Reasoning)

逻辑推理类任务要求模型在图像中执行抽象逻辑操作或多步骤符号推理，对 AI 的「理解-执行一致性」是极大挑战。在中等逻辑测试中，如将问号符号替换为正确答案，模型只改变了图像风格，未完成语义上的替换。对于困难场景，例如在图中标识两点之间的最短路径并使用特定颜色标记，Qwen-VLo 未能正确规划路径，也未按照指令完成目标，显示其逻辑链条的可控性极其有限。

总结

总结而言，从不同难度层级的测试结果可以看出，Qwen-VLo 在 RISEBench 的因果、空间、时间、逻辑四大维度中，在基础的（Easy）任务里基本可用，进入需要多步推理或复杂条件的中、高难度场景时，其理解、生成和推理能力尚存在明显短板。这也提示未来视觉编辑 AI 不仅要 “会改图”，更需要在可解释、可控的推理链条上持续发力，才能真正跨越智能化的门槛。值得一提的是，尽管 Qwen-VLo 在 RISEBench 上性能与闭源领先的 GPT-4o Image, Gemini-2.0-Flash 尚有差距，但在和此前开源的理解生成一体化模型比较中，仍处于相当或领先地位。

展望

RISEBench 自发布以来，持续吸引来自学术界与工业界的广泛关注，已经成为多模态视觉编辑研究的重要试金石。未来，RISEBench 团队将不断扩展样本库，涵盖更多真实分布和复杂推理场景，并持续优化自动化评测体系。

诚挚地邀请广大开发者和研究者，利用 RISEBench 对模型能力进行验证和对比，深入探索多模态深度推理的上限。同时，也欢迎贡献新的任务样例和数据反馈，共同推动视觉编辑AI从像素层面的改动，走向真正理解人类意图的创造性智能，迈向更安全、更可信、更具想象力的未来。

[RISEBench Gallery](https://huggingface.co/spaces/opencompass/RISEBench_Gallery) 提供了全部已测模型在 RISEBench 全量样本上生成结果的完整可视化。如您希望在其中添加您的模型结果，欢迎联系 opencompass@pjlab.org.cn。