🌐 社群导航
🔗 点击加入➡️【AIGC/LLM/MLLM/3D/自动驾驶】 技术交流群
最新论文解读系列

论文名:Di[M]O: Distilling Masked Diffusion Models into One-step Generator
论文链接:https://arxiv.org/pdf/2503.15457
开源代码:https://yuanzhi-zhu.github.io/DiMO/

导读
最近,掩码扩散模型(MDMs)已成为生成式建模领域的一个突出框架,在广泛的任务中表现出强大的性能。与按顺序生成数据的自回归模型不同,MDMs能够更快地生成离散数据。此外,与连续扩散模型相比,MDMs在多模态框架内进行视觉建模方面具有特别的优势,因为它们利用统一的词汇表无缝集成视觉和文本内容。它们的多功能性使其在图像生成、文本生成、视频生成、多模态建模、蛋白质设计、音频合成和运动生成等方面得到了成功应用。此外,已经提出了几种算法来指导MDMs的生成过程,进一步增强了它们的灵活性和与用户定义目标的一致性。
简介
掩码扩散模型(MDMs)已成为一种强大的生成式建模技术。尽管它们取得了显著的成果,但通常存在多步推理速度慢的问题。在本文中,我们提出了Di[M]O,这是一种将掩码扩散模型蒸馏为一步生成器的新方法。Di 解决了两个关键挑战:(1)使用中间步骤信息进行一步生成的难处理性,我们通过令牌级分布匹配来解决这个问题,该方法借助辅助模型,通过“策略内

最低0.47元/天 解锁文章
3234

被折叠的 条评论
为什么被折叠?



