灵活精确可控编辑！Dice:首个离散扩散模型精确反演方法！

最新推荐文章于 2025-01-08 10:39:39 发布

AI生成未来

最新推荐文章于 2025-01-08 10:39:39 发布

阅读量1.1k

点赞数 16

分类专栏：图像编辑文章标签：离散反演图像编辑

本文链接：https://blog.youkuaiyun.com/AIGCer/article/details/143225107

版权

文章链接：https://arxiv.org/pdf/2410.08207
项目链接：https://hexiaoxiao-cs.github.io/DICE/

亮点直击

引入了DICE，一种用于离散扩散模型（包括多项扩散和mask生成模型）的反演算法。通过记录并注入噪声序列或mask模式，DICE能够在无需预定义mask或注意力操作的情况下，实现对离散数据的精确重构和可控编辑。

通过在图像和文本两种模态上的全面实验验证了DICE的有效性，展示了其在不同类型的离散生成模型中的通用性。

证明了该方法可以将主要用于理解任务（如RoBERTa）的模型转化为具有竞争力的文本生成和编辑生成模型，展示了扩展离散扩散模型至新应用的潜力。

总结速览

解决的问题:
离散扩散模型虽然在图像生成和mask语言建模等任务中取得了成功，但在精确控制内容编辑方面存在局限性。当前方法无法实现对离散数据的灵活编辑和准确重构。

提出的方案:
提出了DICE（可控编辑的离散反演），这是首个针对离散扩散模型（包括多项扩散和mask生成模型）的精确反演方法。DICE通过记录在反向扩散过程中的噪声序列和mask模式，实现了无需预定义mask或注意力操作的精确重构和灵活编辑。

应用的技术:
DICE 方法利用了在反向扩散过程中记录的噪声序列和mask模式，应用于离散数据的精确反演和可控编辑。其评估对象包括VQ-Diffusion、Paella和RoBERTa等模型，跨越图像和文本领域。

达到的效果:
DICE 保留了较高的数据保真度，并增强了离散空间中细粒度的内容编辑能力，展示了在图像和文本领域的有效性，提供了新的内容操控机会。

方法

可控编辑离散反演

基于非ODE的反演：基于ODE的生成模型，例如DDIM和流匹配，定义了一个ODE轨迹。由于ODE的确定性特性，可以通过使用欧拉法在正向方向上求解ODE来实现反演，确保根据ODE的固有性质进行重构。相比之下，另一类研究关注基于SDE的模型，如CycleDiffusion和DDPM Inversion。广义上讲，这些方法通过记录噪声或残差来确保重构，这些噪声或残差是重现随机轨迹所需的。CycleDiffusion 在从后验进行采样时记录高斯噪声，并通过输入真实的来注入信号信息。另一方面，DDPM Inversion通过将反演过程拟合到由独立的采样得到的人工随机轨迹中，将信息引入。对于CycleDiffusion和DDPM Inversion，两者的关键思想是利用高斯重参数化技巧，，并跟

最低0.47元/天解锁文章