语义图像反转与编辑新突破:基于整流随机微分方程

语义图像反转与编辑新突破:基于整流随机微分方程

alt

本文提出一种利用整流流模型(如Flux)进行图像反转和编辑的新方法,通过动态最优控制和整流随机微分方程实现高效的零样本条件采样,在多个任务和基准上取得了优异性能。

  1. 研究背景

    • 生成模型与图像反转:视觉生成模型将噪声转化为图像,图像反转旨在找到能再生原始图像的结构化噪声,且反转后的图像应易于编辑。
    • 扩散模型(DMs)的现状与挑战:DMs是当前图像生成的主流方法,但在图像反转时面临忠实性和可编辑性的挑战。其采样过程基于反向随机微分方程(SDE),如DDIM反转因漂移和扩散系数的非线性以及不精确的分数估计而偏离原始图像,现有方法虽能提高忠实性,但效率低、难编辑且依赖复杂注意力处理器。
    • 整流流(RFs)模型的潜力与待探索方向:RFs使用普通微分方程(ODE)进行采样,在训练和采样效率上有优势,但其反转和编辑能力尚未得到充分探索。本文旨在利用RFs实现高效的图像反转和编辑。
    alt
  2. 方法

    • 整流流基础

      • 整流流通过构建源分布(q_0)(通常为标准高斯分布(N(0, I))和时变向量场(v_t(x_t)),利用ODE(dX_t = v_t(X_t)dt)从(X_0 sim q_0)采样目标分布(p_0)(如图像分布)。
      • 训练时,通过耦合(p_0)和(q_0)的样本,利用线性路径(Y_t = tY_1+(1 - t)Y_0)诱导出ODE,用神经网络(u(y_t,t;\varphi))近似边际向量场(u_t(y_t)),通过流匹配目标训练神经网络。
    • 整流流与线性二次调节器(LQR)的联系

      • 无条件整流流通过模拟向量场(v_t(\cdot))可实现图像生成,反转时通过模拟反向向量场(-v_{1 - t}(\cdot))应能恢复原始噪声(命题3.1)。
      • 为处理可能的初始图像 corruption,引入LQR问题,找到最优控制器(c^*(z_t,t)=u_t(z_t|y_1)=(y_1 - z_t)/(1 - t)),将任意图像转换为典型噪声样本(命题3.2)。
    • 基于动态控制的整流流反转

      • 定义受控ODE(dY_t = [u_t(Y_t)+\gamma(u_t(Y_t|y_1)-u_t(Y_t))]dt),通过参数(\gamma)(控制器引导)插值两个目标:与给定图像一致和与干净图像分布一致。当(\gamma = 1)时,确保结构化噪声遵循分布(p_1);当(\gamma = 0)时,精确恢复参考图像(公式8)。
      • 该受控ODE有对应的SDE解释(定理3.4),当(\gamma = 0)时,是标准RFs的随机等价形式,提高对图像(Y_0)的忠实性;当(\gamma = 1)时,解决LQR问题,提高生成质量。
    • 使用整流ODE和SDE的受控反向流

      • 从通过受控ODE得到的结构化噪声(y_1)出发,构建反向ODE(dX_t = [v_t(X_t)+\eta(v_t(X_t|y_0)-v_t(X_t))]dt),(\eta)控制图像的忠实性和可编辑性。当(\eta = 0)时,得到Flux的随机采样器;当(\eta = 1)时,精确恢复给定图像(公式15)。
      • 反向ODE也有对应的SDE形式(定理3.5),其性质与正向过程类似,(\eta)的变化影响图像编辑效果,可通过时变(\eta)实现从无条件到有条件生成的平滑过渡。
  3. 算法流程

    • 问题设置:用户提供文本“提示”和参考内容(可为corrupt或clean图像),目标是根据提示转换图像,对于corrupt图像要生成逼真图像,对于clean图像要在保留内容的同时进行编辑。
    alt
    • 算法步骤

      • 反转:使用受控ODE(8)计算结构化噪声(y_1),初始化时用预训练Flux模型计算无条件向量场,用解析解计算条件向量场,得到的(y_1)用于初始化反向ODE(15)。
      • 编辑:通过反向ODE(15)进行文本引导编辑,向量场根据提示在Flux中计算,(\eta)平衡忠实性和可编辑性,可使用时变(\eta_t)。
  4. 实验评估

    • 实验设置

      • 对比基线:与SDEdit、DDIM Inversion、NTI等SoTA反转方法比较,这些方法均为训练免费,但NTI在反转时需优化空嵌入,编辑时使用P2P注意力处理器。
      • 数据集和任务:在LSUN - church、LSUN - bedroom和SFHQ三个基准上进行Stroke2Image生成和语义图像编辑两项任务。
      • 评估指标:遵循SDEdit的评估协议,用L2损失衡量忠实性,用Kernel Inception Distance(KID)评估逼真度,对图像编辑进行大规模用户研究以计算用户偏好指标,对于人脸编辑,还用面部识别指标、CLIP - T和CLIP - I分数评估身份保留、提示对齐和整体图像质量。
    • 实验结果

      • Stroke2Image生成:在从stroke paint生成逼真图像任务中,RF反转方法生成的图像更逼真,优于DM反转方法,如在LSUN卧室数据集上,比优化免费的SDEdit - SD1.5方法在忠实性上高4.7%,在逼真度上高13.79%,且用户研究表明该方法在整体满意度上比其他基线方法至少高59.67%。

        alt
      • 语义图像编辑:在编辑clean图像任务中,该方法无需额外优化或复杂注意力处理器,比优化免费方法在面部重建、DINO patch - wise相似性和CLIP - Image相似性上至少分别高出29%、6.6%和26.4%,在运行时性能上有54.11%的提升,且在提示对齐指标CLIP - T上可比,同时能更好地保留原始图像内容。

      • 使用相同骨干网络Flux的比较:将该方法与适应Flux的SDEdit和DDIM反转比较,由于所有方法使用相同生成模型,改进源于基于坚实理论基础的受控ODE。

  5. 研究成果与意义

    • 提出了首个利用整流流模型(如Flux)进行高效图像反转和编辑的方法,通过插值两个向量场,在保证忠实性的同时实现图像编辑。
    • 理论上证明了该方法等价于新的整流SDE公式,实践中在多个任务和基准上取得了SoTA零样本性能,无需额外训练、优化潜变量、调整提示或复杂注意力处理器。
    • 展示了在stroke - to - image合成、人脸编辑、对象插入和风格化等任务上的有效性,并通过大规模用户评估证实了用户偏好。
  6. 局限性与未来工作

    • 缺乏与昂贵的基于扩散的编辑解决方案的比较,未来可进一步探索与其他方法的对比。
    • 为减轻技术负面社会影响,应启用安全功能(如NSFW过滤器)并对生成图像进行水印处理,未来可在安全性方面开展更多工作。

核心概念解释

  • 整流流(Rectified Flows) :一种生成模型,通过构建源分布和时变向量场,利用ODE进行采样,与传统扩散模型不同,具有训练和采样效率优势。
  • 线性二次调节器(Linear Quadratic Regulator, LQR) :在控制理论中用于求解最优控制问题,本文通过LQR找到最优控制器,将任意图像转换为典型噪声样本,以实现更好的图像反转和编辑效果。
  • 随机微分方程(Stochastic Differential Equation, SDE) :用于描述随机过程的动态变化,在图像生成和反转中,SDE和ODE之间存在等价转换关系,如本文中通过理论推导得出受控ODE的SDE解释,以分析和优化图像编辑过程中的稳定性和准确性。

应用案例分析

  • stroke - to - image合成:从用户绘制的粗糙stroke paint(如表示卧室或教堂的简笔画),通过该方法能生成逼真的卧室或教堂图像,如在LSUN数据集上的实验,展示了算法对初始corruption的鲁棒性,可用于艺术创作、快速场景构思等领域,艺术家或设计师可快速将简单草图转换为高质量图像。

    alt
  • 语义图像编辑

    • 人脸编辑:可根据用户提示改变人脸年龄、性别、添加面部配饰(如眼镜)等,且能较好地保留人物身份特征,在身份验证系统测试数据增强、娱乐性的人脸变换应用中具有潜在价值。

      alt
    • 对象插入:能在图像中顺序插入多个对象(如在披萨图片中依次插入pepperoni、mushroom等),且不影响已有对象,可应用于广告设计、场景合成等领域,如在广告中快速添加产品元素。

      alt
    • 风格化:将人脸或其他物体转换为特定风格(如迪士尼3D卡通风格),并能根据提示调整面部表情,在数字艺术创作、社交媒体滤镜开发等方面有应用前景,用户可轻松将照片转换为艺术风格作品分享。

      alt

未来研究方向展望

  • 多模态编辑探索:进一步研究如何更好地处理多模态数据,实现更灵活、多样化的图像编辑,如同时编辑图像的多个属性(风格、内容、布局等),满足更复杂的创意需求。
  • 模型压缩与效率提升:优化模型结构和算法,降低计算成本,提高处理速度,使方法更适用于资源受限的设备或大规模实时应用场景,如移动设备上的实时图像编辑。
  • 与其他技术融合:结合强化学习、语义理解等技术,实现更智能、自动化的图像编辑,如根据图像语义自动生成编辑提示或直接进行目标导向的编辑操作。
  • 对抗攻击与防御研究:考虑到图像编辑技术可能面临的安全问题,如对抗攻击导致的恶意编辑,开展相关防御机制的研究,确保编辑过程的安全性和可靠性。

🌟 如果您对前沿科技、人工智能,尤其是多模态语言模型的应用前景充满好奇,那么这里就是您获取最新资讯、深入解析的绝佳平台。我们不仅分享创新技术,还探讨它们如何塑造我们的未来。

🔍 想要不错过任何一篇精彩内容,就请订阅我们的公众号吧!您的关注是我们持续探索和分享的动力。在这里,我们一起揭开AI的神秘面纱,见证科技如何让世界变得更加精彩。


本文由 mdnice 多平台发布

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值