灵活精确可控编辑!Dice:首个离散扩散模型精确反演方法!

文章链接:https://arxiv.org/pdf/2410.08207
项目链接:https://hexiaoxiao-cs.github.io/DICE/

亮点直击

  • 引入了DICE,一种用于离散扩散模型(包括多项扩散和mask生成模型)的反演算法。通过记录并注入噪声序列或mask模式,DICE能够在无需预定义mask或注意力操作的情况下,实现对离散数据的精确重构和可控编辑。

  • 通过在图像和文本两种模态上的全面实验验证了DICE的有效性,展示了其在不同类型的离散生成模型中的通用性。

  • 证明了该方法可以将主要用于理解任务(如RoBERTa)的模型转化为具有竞争力的文本生成和编辑生成模型,展示了扩展离散扩散模型至新应用的潜力。

总结速览

解决的问题:
离散扩散模型虽然在图像生成和mask语言建模等任务中取得了成功,但在精确控制内容编辑方面存在局限性。当前方法无法实现对离散数据的灵活编辑和准确重构。

提出的方案:
提出了DICE(可控编辑的离散反演),这是首个针对离散扩散模型(包括多项扩散和mask生成模型)的精确反演方法。DICE通过记录在反向扩散过程中的噪声序列和mask模式,实现了无需预定义mask或注意力操作的精确重构和灵活编辑。

应用的技术:
DICE 方法利用了在反向扩散过程中记录的噪声序列和mask模式,应用于离散数据的精确反演和可控编辑。其评估对象包括VQ-Diffusion、Paella和RoBERTa等模型,跨越图像和文本领域。

达到的效果:
DICE 保留了较高的数据保真度,并增强了离散空间中细粒度的内容编辑能力,展示了在图像和文本领域的有效性,提供了新的内容操控机会。

方法

可控编辑离散反演

基于非ODE的反演:基于ODE的生成模型,例如DDIM和流匹配,定义了一个ODE轨迹。由于ODE的确定性特性,可以通过使用欧拉法在正向方向上求解ODE来实现反演,确保根据ODE的固有性质进行重构。相比之下,另一类研究关注基于SDE的模型,如CycleDiffusion和DDPM Inversion。广义上讲,这些方法通过记录噪声或残差来确保重构,这些噪声或残差是重现随机轨迹所需的。CycleDiffusion 在从后验进行采样时记录高斯噪声,并通过输入真实的来注入信号信息。另一方面,DDPM Inversion通过将反演过程拟合到由独立的采样得到的人工随机轨迹中,将信息引入。对于CycleDiffusion和DDPM Inversion,两者的关键思想是利用高斯重参数化技巧,,并跟

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值