在当今的科技领域,文本到图像的扩散模型取得了显著进展,它能够根据文本提示合成逼真的图像内容,在内容创作、图像编辑、超分辨率、视频合成以及3D资产生产等众多领域都有广泛的应用前景。然而,这些模型通常需要大量的计算资源,一般依赖云端配备高端GPU的推理平台。将个人的照片、视频和提示信息传输给第三方供应商,不仅会产生相当可观的成本,还会引发严重的隐私问题。
为了在移动设备上提高文本到图像扩散模型的推理速度,研究人员采用了诸如量化和GPU感知优化等技术。但遗憾的是,这些技术尚未将延迟降低到能带来出色用户体验的水平。而且,此前也没有研究对设备端模型的生成质量进行过定量探索。
潜在扩散模型与稳定扩散模型
扩散模型本身复杂且计算密集,这促使研究人员探索优化其效率的方法,例如改进采样过程和研究设备端解决方案。潜在扩散模型(LDM)是一种可用于将文本转换为图像的扩散模型,它能根据文本提示生成高质量的图像,是强大的内容创作工具。而稳定扩散模型,特别是1.5版本,是本研究的起点。它是根据文本提示生成图像的热门模型,能生成令人印象深刻的高质量图像,但运行它需要强大的计算能力。这是因为该模型的工作方式,它需要经过大量重复步骤来优化图像,这会占用大量处理能力。该模型由文本编码器、UNet和VAE解码器组成,并且参数数量极多,运行起来计算量巨大,实际上需要昂贵的GPU才能使