文章链接:https://arxiv.org/pdf/2410.08207
项目链接:https://hexiaoxiao-cs.github.io/DICE/
亮点直击
引入了DICE,一种用于离散扩散模型(包括多项扩散和mask生成模型)的反演算法。通过记录并注入噪声序列或mask模式,DICE能够在无需预定义mask或注意力操作的情况下,实现对离散数据的精确重构和可控编辑。
通过在图像和文本两种模态上的全面实验验证了DICE的有效性,展示了其在不同类型的离散生成模型中的通用性。
证明了该方法可以将主要用于理解任务(如RoBERTa)的模型转化为具有竞争力的文本生成和编辑生成模型,展示了扩展离散扩散模型至新应用的潜力。
总结速览
解决的问题:
离散扩散模型虽然在图像生成和mask语言建模等任务中取得了成功,但在精确控制内容编辑方面存在局限性。当前方法无法实现对离散数据的灵活编辑和准确重构。
提出的方案:
提出了DICE(可控编辑的离散反演),这是首个针对离散扩散模型(包括多项扩散和mask生成模型)的精确反演方法。DICE通过记录在反向扩散过程中的噪声序列和mask模式,实现了无需预定义mask或注意力操作的精确重构和灵活编辑。
应用的技术:
DICE 方法利用了在反向扩散过程中记录的噪声序列和mask模式,应用于离散数据的精确反演和可控编辑。其评估对象包括VQ-Diffusion、Paella和RoBERTa等模型,跨越图像和文本领域。
达到的效果:
DICE 保留了较高的数据保真度,并增强了离散空间中细粒度的内容编辑能力,展示了在图像和文本领域的有效性,提供了新的内容操控机会。
方法
可控编辑离散反演
基于非ODE的反演:基于ODE的生成模型,例如DDIM和流匹配,定义了一个ODE轨迹。由于ODE的确定性特性,可以通过使用欧拉法在正向方向上求解ODE来实现反演,确保根据ODE的固有性质进行重构。相比之下,另一类研究关注基于SDE的模型,如CycleDiffusion和DDPM Inversion。广义上讲,这些方法通过记录噪声或残差来确保重构,这些噪声或残差是重现随机轨迹所需的。CycleDiffusion 在从后验进行采样时记录高斯噪声,并通过输入真实的来注入信号信息。另一方面,DDPM Inversion通过将反演过程拟合到由独立的采样得到的人工随机轨迹中,将信息引入。对于CycleDiffusion和DDPM Inversion,两者的关键思想是利用高斯重参数化技巧,,并跟