ICLR‘25 Spotlight | AI也能写菜谱?ISG:全新图文交错生成评测框架来了!

【ICLR 2025预讲会】系列内容

ICLR 2025预讲会系列文章来源于 DAMO 开发者矩阵与 AI Time 联合举办 ICLR 2025预讲会整理成稿,旨在帮助大家率先了解深度学习领域的最新研究方向和成果。本文为文章作者的观点/研究数据,仅供参考,不代表本账号的观点和研究内容,版权归分享人所有。

摘要

在多模态内容生成领域,提出了 ISG 评测框架以解决 AI 模型生成图文交错内容的难题。ISG通过建模文本与图像块的连接,提供整体、结构、块级和图像级四个层级的评估,深入评测生成质量。ISG-BENCH数据集包含1150个样本,涵盖8大类、21个子类任务,配有标准答案,支持精准评估。

评估发现,统一模型在生成准确图文内容方面表现欠佳,组合式方法虽整体提升显著,但在细节评估中仍有不足。ISG-AGENT智能体采用“规划-执行-优化”流程,性能较领先统一模型提升122%。

阅读论文预印本: https://arxiv.org/pdf/2411.17188 

项目主页与代码: https://interleave-eval.github.io

图片

背景动机:对连贯多模态内容生成的需求

想象一下,你问 AI “蛋炒饭怎么做?”相比纯文本,一个带有步骤图片、如同菜谱般的回答是不是更棒?许多现实场景都受益于AI生成图文并茂的回复。这种能力为更丰富的教程、引人入胜的故事和更直观的解释打开了大门,超越了简单的文本或图像输出。

然而,生成连贯的图文交错内容极具挑战性。当前的 AI 模型,无论是统一模型还是组合式模型(结合独立的文本和图像生成器),常常表现不佳。它们生成的图像可能与文本不一致,步骤之间缺乏逻辑连贯性,或者无法在多张图片间保持视觉风格统一,导致用户体验混乱或突兀。

现有针对这些模型的评测方法也存在不足。它们往往侧重于以文本为主的任务,缺乏用于客观评估的标准答案,或者使用宏观的“AI裁判”(如GPT-4)而忽略了关键的细粒度细节。我们缺少一种严谨的方法来衡量生成内容中文本与图像块之间的一致性、准确性和复杂关系。

图片

ISG评测框架,包含四个levels

图片

提出的方案:ISG框架与基准

为解决这些评测难题,作者提出了全新的图文交错场景图(Interleaved Scene Graphs, ISG)评测框架。

受场景图捕捉图像内关系的启发,ISG建模了生成回复中文本块和图像块之间的连接。它能自动将输出解析为图状结构,从而能够深入评估其质量。

ISG提供了一个跨越四个关键层级的多维度评估体系:整体(Holistic)评估整体质量,结构(Structural)评估序列和格式的正确性,块级(Block-Level)评估每个图文块内部及其局部连接的准确性,以及图像级(Image-Specific)评估图像内的语义细节。这种精细化的方法能够提供细致入微、可解释的模型性能反馈,精准定位优势与不足。 
 

图片

ISG-Bench与统计图

与框架配套,作者还精心构建了ISG-BENCH,一个专为图文交错生成设计的挑战性基准数据集。它包含覆盖 8 大类、21个子类的1150个样本,囊括了风格迁移等复杂的、以视觉为中心的任务,这些任务对视觉准确性要求极高。至关重要的是,ISG-BENCH包含了详细的标准答案(Golden Answer),支持精确可靠的评估。

利用 ISG 框架和ISG-BENCH,对一系列最新的图文交错生成方法进行了严格评估。这包括了五种流行的统一视觉语言模型,以及四种组合式框架(将强大的语言模型如 Claude/Gemini 与图像生成器如 SD3 结合)目标是了解它们在生成一致、高质量多模态内容方面的当前能力和局限。

图片

结果与启示:当前挑战与未来方向

实验结果揭示了显著的改进空间。虽然统一模型展现出潜力,但目前在生成准确且一致的图文交错内容方面表现较差,尤其是在需要高视觉保真度的任务上。组合式方法虽然在整体评估上表现出巨大飞跃(提升超过111%),显示了结合专用模型的威力,但在更精细的块级和图像级评估中仍暴露出弱点。 

图片

ISG测试框架结果展示 

图片

不同模型性能评估

为推动未来研究,还开发了一个基线智能体ISG-AGENT,它采用“规划-执行-优化”流程并调用工具。该智能体相较于表现最好的统一模型,性能提升了122%,展示了基于智能体的系统的潜力分析也证实了ISG评估结果与人类判断的高度一致性,优于简单的评估指标,提供了可信赖的评估。 
 

图片

ISG-Agent构建方法

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值