连更!!
0 Abstract
- 先前的姿势引导图像合成方法简单的将人的外观与目标姿势进行对齐,这容易导致过拟合,因为缺乏对source person image的high-level semantic understanding;
- 文章开发了一种新的训练范式:仅基于图片,控制pre-traind text-to-image diffusion model的图像生成过程;
1 Introduction
- GAN-based方法不够稳定,因此表现不佳;
- 现有的diffusion-based方法缺乏对人像的high-level semantic understanding,容易导致过拟合与低泛化性;
- 本文提出了Coarse-to-Fine Latent Diffusion (CFLD)方法:
- 打破传统范式:使用文本prompt(高度语意化与信息深度)控制SD model的图片生成过程;
- perception-refined decoder:对细粒度的外观信息进行解耦,通过类似QFormer结构从source image学习外观信息得到一组prompt token(替代了text prompt,作为粗粒度prompt,关注人像的常规语意);
- hybrid-granularity attention module