巴黎综合理工学院提出Di[M]O!掩码扩散模型的一步生成革命!

🌐 社群导航

🔗 点击加入➡️【AIGC/LLM/MLLM/3D/自动驾驶】 技术交流群

🔗 点击加入➡️【2-3月CCF投稿】交流群

最新论文解读系列

图片

论文名:Di[M]O: Distilling Masked Diffusion Models into One-step Generator

论文链接:https://arxiv.org/pdf/2503.15457

开源代码:https://yuanzhi-zhu.github.io/DiMO/

图片

导读

最近,掩码扩散模型(MDMs)已成为生成式建模领域的一个突出框架,在广泛的任务中表现出强大的性能。与按顺序生成数据的自回归模型不同,MDMs能够更快地生成离散数据。此外,与连续扩散模型相比,MDMs在多模态框架内进行视觉建模方面具有特别的优势,因为它们利用统一的词汇表无缝集成视觉和文本内容。它们的多功能性使其在图像生成、文本生成、视频生成、多模态建模、蛋白质设计、音频合成和运动生成等方面得到了成功应用。此外,已经提出了几种算法来指导MDMs的生成过程,进一步增强了它们的灵活性和与用户定义目标的一致性。

简介

掩码扩散模型(MDMs)已成为一种强大的生成式建模技术。尽管它们取得了显著的成果,但通常存在多步推理速度慢的问题。在本文中,我们提出了Di[M]O,这是一种将掩码扩散模型蒸馏为一步生成器的新方法。Di  解决了两个关键挑战:(1)使用中间步骤信息进行一步生成的难处理性,我们通过令牌级分布匹配来解决这个问题,该方法借助辅助模型,通过“策略内

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值