ECCV2024 | SPLAM:基于子路径线性近似的扩散模型加速方法

▐ 导读

阿里妈妈AI创意生产工具-万相实验室,已经广泛服务于电商多个业务场景,帮助商家快速制作创意图片,降低成本和提升投放效果。在此之前,公众号已经分享了其背后电商文生图基础模型可控生成相关工作,随着使用客户的不断增多,以及平台对于规模化制作的诉求,如何加快图像扩散模型的生成速度是急需解决的问题。本文介绍了我们和南京大学王利民教授课题组合作完成的加速扩散模型生成速度上的新工作:SPLAM(基于子路径线性近似的扩散模型加速方法),其主要解决扩散模型在采样过程中通常需要25步推理带来的长耗时问题。SPLAM提出了线性ODE(线性常微分方程)采样方法,对现有的LCM(潜在一致性模型)存在的累积误差较大的问题进行优化。在同等4步推理条件下,SPLAM在COCO30k和COCO5k数据集上分别取得了10.06和20.77的FID分数,在加速模型方法中达到了SOTA水平。同时,相关工作已经应用于万相实验室快速生成任务。SPLAM工作已被 ECCV 2024 接收为 Oral,论文、代码、模型均已开源,欢迎阅读&试用交流~

  • 项目主页:https://subpath-linear-approx-model.github.io/

  • 论文:https://arxiv.org/abs/2404.13903

  • 作者:Chen Xu, Tianhui Song, Weixin Feng, Xubin Li, Tiezheng Ge, Bo Zheng, Limin Wang

  • 代码:https://github.com/MCG-NJU/SPLAM

  • 模型:https://huggingface.co/collections/alimama-creative/slam-662f1dd31d5c8cd0b3acb0e0

1. 背景

扩散模型目前已经成为文本生成图片领域使用最为广泛的模型,其通过逐步去噪步骤来从一张高斯噪声采样生成真实分布中的图片。然而,扩散模型一直存在的一个问题是其运行速度,因为需要多步迭代推理,导致图片生成速度缓慢,计算开销大。针对这个问题,一直以来,也有非常多的工作在探索加速扩散模型的方法。在最初的DDPM中,模型的推理需要和训练时相同的1000步迭代,生成一张图片通常需要数分钟。一系列工作着重研究推理时的采样方法,如DDIM,DPM-Solver等,这些方法通过ODE等技术优化,将采样步数从1000步降低到了20~50步量级,大大提升了图片生成速度。另外一系列的工作着重研究基于现有预训练模型(比如Stable Diffusion),通过蒸馏等方法将步数进一步压缩,实现到了10步以下的采样迭代次数。如LCM(一致性模型),通过将PF-ODE上的采样点映射到原点的思想,实现了2-4步的推理,然而压缩步数也会导致一定程度的图片质量下降。本文分析了一致性优化学习的过程中的难点和导致性能下降的因素,提出了子路径线性近似模型(SPLAM)对问题进行了优化,减小了快速推理过程的累积误差,在生图效果和速度上取得了更好的平衡。

2. 方法

2.1 一致性模型

一致性模型(Consistency Model)[1] 是 OpenAI 的 Song Yang 博士在 ICML2023 提出的扩散模型加速方法,是这个领域中非常重要的一项工作,基于此在Stable Diffusion上开发的LCM模型 [2] 也是在用户社区中热度非常高加速功能插件,我们首先来回顾一下一致性模型的原理。

根据 Song Yang [3] 的理论,一个扩散模型的去噪过程可以建模为一条

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值