论文阅读笔记——In-Context Edit

最新推荐文章于 2025-11-30 18:32:32 发布

原创

最新推荐文章于 2025-11-30 18:32:32 发布 · 1.5k 阅读

·

33

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#论文阅读 #图像编辑 #语言模型 #MoE #LoRA #人工智能

ICEdit 论文阅读笔记
指令图像编辑现有方法的局限：

微调类方法（InstructPix2Pix、Emu Edit、 Ultra Edit）：需要大规模数据和算力、精度高但效率低且泛化性低；
免训练方法（Prompt-to-Prompt、 StableFlow）：高效但难以理解复杂语义、编辑质量低。
ICEdit 则关注如何在不牺牲编辑精度和泛化能力的前提下，极大提升训练和推理效率，实现高质量、低成本、易扩展的指令图像编辑范式。与以前的方法相比，ICEdit只有 1% 的可训练参数（200 M）和 0.1% 的训练数据（50 k），仅用 9s 推理。

将编辑指令嵌入专为语境化编辑设计的生成提示中，构建如下提示模板：“a side-by-side image of the same {subject}: the left depicts the original {description}, while the right mirrors the left but applies {edit instruction}.” 分析 IC 提示下编辑指令对应的注意力图，发现待修改区域呈现更显著的激活值。借鉴大语言模型的上下文能力，构建双联画的输入。
在这里插入图片描述

本文设计了两种框架：

T2I DiT：通过一种隐式的参考图像注入方法，将参考图像的特征融入到双联画的左边图像表示中，从而在右边图像生成时能够保留参考图像的风格和特征。具体而言，对参考图像进行反演，保留各层步骤的注意力值，将反演得到的注意力值注入代表双莲花左侧的 token，来重建参考图像。但这引入了额外的图像翻转步骤，增加了计算开销，且结果不够稳定。
Impainting DiT：预设一张并排图像，左侧为图像，右侧为 Mask，使用相同的 IC 提示指导修复，让模型在 Mask 区域生成指令编辑结果。计算成本较低，且结果更稳定，但保留参考图像风格能力较弱。

最终采用 Impainting DiT 的方式 $I_t=E(I_s,T_e)=D(I_{IC},M,T_{IC})$

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。