论文:https://arxiv.org/abs/2405.18407 (2024.05.30发布)
代码:https://github.com/G-U-N/Phased-Consistency-Model
一、论文要解决什么问题?效果如何? (需要先了解LCM模型)
(阶段性一致性模型:朝着稳定、快速的图像和视频生成方向发展)
一致性模型(CM, Consistency Model)最近在加速
生成扩散模型方面取得了显著进展。然而,其在潜在空间(即高分辨率、文本条件的图像生成,简称 LCM, Latent Consistency Model
)中的应用仍不令人满意
LCM当前设计的三个主要缺陷:
- 一致性差:可以发现使用相同种子在不同推理步骤中生成的结果不一致。(见下图右上)
- 可控性(Controllability):尽管稳定扩散可以在广泛的推理步骤(即2-15步)中接受分类器无关指导(CFG, Classifier-Free Guidance),但配备LCM权重后,它们只能接受1-2步的CFG。较大的CFG值会导致曝光问题
- 效率(Efficiency):我们发现LCM在少数步骤