AIGC全新综述!多模态引导的基于文生图大模型的图像编辑综述

编辑 | CVer

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心大模型技术交流群

本文只做学术分享,如有侵权,联系删文

前言:

提出解决一般性编辑任务的统一框架!近期,复旦大学FVL实验室和南洋理工大学的研究人员对于多模态引导的基于文生图大模型的图像编辑算法进行了总结和回顾。综述涵盖300多篇相关研究,调研的最新模型截止至今年6月!该综述拓展了关于控制条件(自然语言,图像,用户接口)和编辑任务的讨论 (物体/属性操作、空间变换、inpainting、风格转换、图像翻译,主体/属性客制化),以从更新颖和更一般性的角度全面的探讨编辑方法。此外,该综述提出的统一框架将编辑过程表示为不同算法族的组合,并通过全面的定性和定量实验来说明各种组合的特性以及适应场景。该框架提供了友好的设计空间以满足用户不同的需求,并为研究者们提供了一定的参考以开发新的算法。

摘要:

图像编辑旨在根据用户的特定需求编辑给定的合成或真实图像。作为人工智能生成内容(AIGC)领域中一个有前景且具有挑战性的领域,图像编辑得到了广泛研究。近期,大规模文生图(T2I)扩散模型驱动了图像编辑技术的发展。这些模型根据文本提示生成图像,展示了惊人的生成能力,已成为图像编辑的常用工具。基于T2I的图像编辑方法显著提升了编辑性能,为用户提供了使用多模态条件引导进行内容修改的接口。我们对基于T2I扩散模型的多模态引导下的图像编辑技术进行了全面回顾。首先,我们从更一般性的角度定义了图像编辑任务的范围,并详细描述了各种控制信号和编辑场景。然后,我们提出了一个统一框架来形式化编辑过程,将其表示为两个算法族的组合。这个框架为用户提供了一个设计空间,以实现特定目标。接着,我们对该框架内的每个组件进行了深入分析,研究了不同组合的特性和适用场景。由于基于训练的方法直接学习将源图像映射到目标图像,我们对这些方法进行了单独讨论,并介绍了不同场景下源图像的注入方案。此外,我们也回顾了2D技术在视频编辑中的应用,重点介绍了解决帧间不一致性的问题。最后,我们也讨论了该领域的开放性挑战,并提出了潜在的未来研究方向。    

论文和开源仓库的地址:

3babf51cac6de1768b39a85271c60281.png

论文题目:A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models

发表单位:复旦大学FVL实验室,南洋理工大学

论文地址:https://arxiv.org/abs/2406.14555

项目地址:https://github.com/xinchengshuai/Awesome-Image-Editing

1.研究动机

1.1,在现实生活中,人们对于可控的、高质量的智能化图像编辑工具的需求日益增加,因此有必要系统地总结与对比下这个方向的方法与技术特点。

1.2,当前的编辑算法与相关的综述都将编辑场景局限于保留图像中的大部分与编辑无关的低级语义信息,为此要必要扩展编辑任务的范围,从更具有一般性的视角讨论编辑任务。

1.3,由于需求和场景具有多样性,有必要将编辑过程形式化为一个统一框架,并为用户提供一个设计空间来适应不同的编辑目标。

2.这篇综述的特色,以及与当前的编辑综述有什么区别?    

2.1 关于编辑任务的定义与讨论范围。相比于现有的算法以及前人的编辑综述,本文对于图像编辑任务的定义更加广泛。具体的,本文将编辑任务分为content-aware 和content-free场景组。其中content-aware组内的场景为之前的文献所讨论的主要任务,它们的共性是保留图像中的一些低级语义特征,如编辑无关区域的像素内容,或图像结构。此外,我们开创性地将客制化任务(customization)纳入到content-free场景组中,将这一类保留高级语义(如主体身份信息,或者其他细粒度属性)的任务作为对常规的编辑场景的补充。

22a59f7e0749d0dacc68210376c04084.jpeg

图1. Survey讨论的各种编辑场景

2.2 一般性编辑算法的统一框架。由于编辑场景的多样性,现有的算法无法很好的解决所有的需求。因我们将现有的编辑过程形式化为一个统一的框架,将其表示为两个算法族的组合。此外我们也通过定性和定量实验分析了不同组合的特性与适应场景,为用户提供了一个良好的设计空间以适应不同的编辑目标。同时,该框架也为研究者们提供了一个较好的参考,以设计出性能更优的算法。    

2.3 讨论的全面性。我们调研了300多篇的相关论文,系统且全面地阐述了各种模态的控制信号在不同场景下的应用。对于基于训练的编辑方法,本文也提供了在各种场景下源图像注入到T2I模型的策略。此外,我们也探讨了图像编辑技术在视频领域的应用,使得读者能够快速的理解不同领域间编辑算法的联系。  

3.一般性编辑算法的统一框架:

4dc34acd7543ae3daaa7baeecda4e2cb.jpeg

图2. 一般性编辑算法的统一框架

框架包含了两个算法族Inversion算法aa2f50ee3efce9bfd2b856825ea51235.png和Editing 算法58a061c2c326e99da1d7aff553eb81cf.png

3.1 Inversion算法。Inversion 算法4efe1fd1e94f83ff37a896404be5c64e.png将源图像集合9ea8dc85b306f8d27c88781c2f43e10d.png编码到特定的特征或参数空间,得到对应的表征e457a73e10eb2d5c97e0cbf88f3e5086.png(inversion clue),并用对应的源文本描述163c13eb103afbbd493796cff37cffa7.png作为源图像的标识符。包括tuning-basedbccca957d5b2fe69900465fe780c6b15.png和forward-based2039a12ffe6497190a410f0c121df134.png两种类型的inversion算法。其可以被形式化为:

a21c3980c71b330835f18a9b664fbc51.png

Tuning-based inversion4736f104c37dd84911fd0a8861937663.png通过原有的diffusion训练过程将源图像集合植入到扩散模型的生成分布中。形式化过程为:

095866a5c5e8aff1b6078d6af14d692e.png

其中5005f4bbda66abc2c827055ffd5d93e4.png为引入的可学习的参数,且d183d8e0b98e3b5bb750d34adb1d6d67.png

Forward-based inversion3d22208b63c11e2c890f2d384df03816.png用于在扩散模型的反向过程中(26e960d76f0adeca51a21f73ed9ba830.png)还原某一条前向路径中的噪声(61b21dadda11723b378633132a8af8cc.png)。形式化过程为:

5788472c9467fc9528f4134064d81b23.png

其中2314e297e152daf3d80d2d0a5b2ce816.png为方法中引入的参数,用于最小化6235556e6651ba0ee5cafe163e2a6db7.png。在这种方法中,5b270b2d4c33858a0ce4675324c2fd31.png

3.2.Editing 算法。Editing算法827928f38ee60fa164460d6fc1574893.png根据e0924c69688cc1f4b4b67df8e2bd9067.png和多模态引导集合86498e05a198ede850e8d98e383ad1be.png来生成最终的编辑结果989db1485aad53f702a9bed0b856c788.png。包含attention-based0183df2037a6ec1596eaee06ee882392.png,blending-basedd9a03a13412695dc26cdeb0a5aadc19d.png,score-basedb9f1e31957e6914af03bfea904d33037.png以及optimization-basedbe08b1e839f59cdd024aaa02c62abbc7.png的editing算法。其可以被形式化为:

2c8b5c76f762f2bf2083b064e611e79d.png

特别地,对于每一步的反向过程,53128251ecabc637f20fd8fcc83c28cd.png进行了如下操作:

ad9b31dfc4ec542951c9df54d6045e76.png    

其中4095dc9effba7520a0725716f27150f7.png中的操作表示编辑算法对于扩散模型采样过程c694786378b1720d8b10dad25be939ab.png的干预,用于保证编辑后的图像ca81610e6c710c07c548989676da341b.png与源图像集合bb1b3bf383f7c8ae81e522e443a6cfc2.png的一致性,并反应出2538795cb6f63aa734f4a2888db20409.png中引导条件所指明的视觉变换。

特别地,我们将无干预的编辑过程过程视作为普通版本的编辑算法26494a30c35ad53868cb4300034327e5.png。其形式化为:

9bbee435f2b63764c634386299cb2b42.png

Attention-based editingc92bd4b06a6a4f3e21e7f17aa89d26b8.png的形式化过程:

adbe86248c619711184fe398a30bc17a.png

Blending-based editing9d45a3ae3e0e05822ff0751d6ffc183e.png的形式化过程:

4bb25af5e4039dbca3a5a2b0a122faba.png

Score-based editingaa2066c00581168c9921b6866819e00b.png的形式化过程:

cff6a09f1be39304978522c553836006.png

Optimization-based editinge7c3d5ea5868876fe07ec49eb1a59453.png的形式化过程:

feac6706dd2f3ba86fd312e0c5601e8c.png

3.3 Training-Based 的编辑方法。与training-free的方法不同的是,training-based算法通过在任务特定的数据集中直接学习源图像集合到编辑图像的映射。这一类算法可以看作是tuning-based inversion的扩展,即通过额外引入的参数将源图像编码到生成分布中。在这类算法中,最重要的是如何将源图像注入到T2I模型中,以下是针对不同编辑场景的注入方案。

Content-aware 任务的注入方案:   

ae37a0e249e30c98352266de74a7bc7e.jpeg

图3. Content-aware 任务的注入方案

Content-free 任务的注入方案:

94b3a68f1909a26b64ec91221cc739b6.jpeg

图3. Content-free 任务的注入方案

4. 统一框架在多模态编辑任务中的应用

本文通过定性实验说明了各个组合在多模态编辑任务中的应用:

78d61e2a9040f5b161420e2c8df0f9e9.jpeg

图4. 关于attention-based editingdac2c732072e93152f327465eb4cb2d3.png的算法组合的应用

ea14d6c8f8349ce4d5f9a8d505ef3fb8.jpeg

图5. 关于blending-based editingedcad5b0e3eaa68fb10f8d53dcf581b7.png的算法组合的应用

5f58b2f98db181b4ed7e017dc5936466.jpeg

图6. 关于score-based editing9eda2252884c351c9cfbad11b9561cee.png的算法组合的应用

81a7c9ba1d06ce08ee97054d98b67e82.jpeg

图7. 关于optimization-based editing54faa4ecfa0bcd266f707088e4f8ad4c.png的算法组合的应用

具体的分析请查阅原始论文。

5.不同组合在文本引导的编辑场景下的比较

对于常见的文本引导的编辑任务,本文通过设计了多个具有挑战性的定性实验,以说明不同组合所适合的编辑场景。此外,本文也相应地收集了高质量和具有一定难度的数据集,以定量地说明各种组合中的先进算法在不同场景下的性能。

对于 content-aware任务,我们主要考虑对象操作(增/删/替换),属性改变,风格迁移。特别地,我们考虑了具有挑战性的实验设置:1.多目标编辑。2.对于图像的语义布局影响较大的用例。我们也收集了这些复杂场景的高质量图片,并对不同组合中的先进算法进行全面的定量地比较。

53f2a2d9fce9b238f8a806bf700e71a0.png

图8.Content-aware任务中各个组合的定性比较,从左至右分别是d8968424bd9d7e27629768a5681893f2.png

关于结果的分析以及更多的实验结果请查阅原始论文。

对于 content-free任务,我们主要考虑基于主体驱动的(subject-driven)客制化任务。并考虑了多种场景,如更换背景,与物体的交互,行为的改变,以及风格的改变。我们也定义了大量的文本引导模板,对以各个方法的整体性能进行定量分析。   

958290b0b0c43fa53f9c612cbc8af354.png

图9. Content-free任务中各个组合的定性比较,从左至右分别是691a1883a6fdc2e6d151d254687eb4d2.png

关于结果的分析以及更多的实验结果请查阅原始论文。

6.未来可以进行的方向:

此外本文也给出了一些未来的可能一些研究方向分析。这里给出content-aware 任务和content-free 任务的挑战作为例子。

6.1. Content-aware 任务的挑战。对于content-aware 编辑任务的挑战,现有方法无法同时处理多种编辑场景和控制信号。这一限制迫使应用在不同任务之间切换合适的后端算法。此外,一些高级方法在易用性方面不友好。某些方法需要用户调整关键参数以获得最佳结果,而其他方法则需要繁琐的输入,例如源和目标提示,或辅助掩码。   

6.2,Content-free 任务的挑战。对于content-free 编辑任务,现有方法在测试时调优过程冗长且存在过拟合问题 。一些研究旨在通过优化少量参数或从头开始训练模型来缓解这一问题。然而,它们常常会丢失个性化主体的细节,或表现出较差的泛化能力。此外,当前方法在从少量图像中提取抽象概念方面也有所不足,它们无法完全将所需概念与其他视觉元素分离开来。

更多的研究方向内容可以查阅原始论文。

投稿作者为『自动驾驶之心知识星球』特邀嘉宾,欢迎加入交流!

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、cuda与TensorRT模型部署大模型与自动驾驶Nerf语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

930b8d4f8c78368c3e09ceadcf36e41a.png

网页端官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业,近3000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型、端到端等,更有行业动态和岗位发布!欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频

8b905c3161fd059c936f5716fee2107b.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向,目前近60+技术交流群,欢迎加入!扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

bb46672c25e22da936ab475282172030.jpeg

④【自动驾驶之心】全平台矩阵

e0fd04a2a4c645e9d2f6ba788fe6867f.png

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值