RISEBench:四大维度揭示视觉编辑模型强推理生成能力

随着多模态大模型的快速崛起,图像与语言深度融合正在重新定义内容生产方式。从 Gemini-Flash-2.0 到 GPT-4o-Image,这些 “理解-生成一体化” 模型为视觉编辑场景带来了惊人的能力。然而,当指令从简单元素编辑 (如添加 / 删去物体,更改颜色) 逐步走向更复杂的逻辑、因果和时间关联时,传统的视觉编辑评测方法就显得力不从心。如何量化一个模型是否真正“读懂”并完成深度推理型编辑,成为 AI 发展面临的全新难题。

为此,上海人工智能实验室司南评测体系联手上海交通大学、同济大学、武汉大学、普林斯顿大学提出了推理视觉编辑评测基准 RISEBench(Benchmarking Reasoning-Informed ViSual Editing)以填补了这一空白。RISEBench 以时间推理 (Temporal Reasoning)、因果推理 (Causal Reasoning)、空间推理 (Spatial Reasoning) 和 逻辑推理 (Logical Reasoning) 四大推理能力为核心,共计 360 道高难度题目,旨在测试视觉编辑模型在理解复杂指令、保证内容一致性及视觉合理性方面的能力。

RISEBench 现已上架到司南评测集社区,欢迎访问:

https://hub.opencompass.org.cn/dataset-detail/RISEBench

论文

https://arxiv.org/pdf/2504.02826

GitHub

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值