
Paper: https://arxiv.org/abs/2309.15807
文章目录
1. Introduction
本文提出了quality-tuning,以有效地引导预训练模型仅生成视觉上高度吸引人的图像,同时保持对视觉概念的一般性。
本文的关键发现在于:在一个规模非常小但高度吸引人的图像数据集上进行SFT,可以显著提供图像的生成质量。
具体而言,本文在110亿图文对上首先预训练了一个latent diffusion model,然后在仅几千张精心挑选的高质量图像数据集上进行微调后,得到了Emu。
Emu和仅预训练的latent diffusion model对比,胜率达到82.9%,而与目前最为先进的SDXLv1.0相比,Emu在标准的PartiPrompts和本文的Open User Input benchmark上各自取得了68.4%和71.3%的胜率。
Quality-tuning是一个通用的策略,其对于pixel diffusion和masked generative transformer models等其他架构也一样适用。
Quality-tuning很类似与LLM中的Instruction-tuning:
- Quality-tuning和Instruction-tuning一样,可以显著提升生成模型的能力。
- Quality-tuning和Instruction-tuning一样,相较于Pretraining阶段,只需要非常少量的高质量数据即可。
- Quality-tuning和Instruction-tuning一样,不会导致其在Pretraining阶段习得的知识被遗忘。
Quality-tuning阶段的数据筛选标准是主观的,会受到各自文化的影响。本文则是遵循了摄影中的一些基本原则,包括但不限于构图、光照、色彩、有效分辨率、对焦、故事叙述的指引性等。
Emu的部分生成结果如下:
2. Method
本文将生成模型的训练分为两个阶段:
- Knowledge Learning Stage(Pretraining Stage)
- Quality-Tuning Stage(Finetuning Stage)
正如Introduction中所提,本文的关键洞察在于以下三点:
- 微调数据集可以非常小,仅需几千张图像
- 数据集的质量需要非常高,这使得数据集的完全自动化几乎不可能,需要通过人工进行标注
- 即使使用很小的微调数据集,Quality-Tuning不仅显著提高了生成图像的美感,而且没有牺牲其图文一致性
2.1 Latent Diffusion Architecture
本文设计了一个Latent Diffusion Model,可以生成1024x1024分辨率的图像,和标准的Latent Diffusion Architecture设计一致,Emu也包括一个AutoEncoder(用于将Image编码为Latent Embeddings)以及一个UNet(学习去噪过程)。
本文发现常用的4-channel AutoEncoder(AE-4)由于压缩率过高,会导致重建图像缺乏细节,而将通道数提升至16可以显著提升重建质量。
为了进一步提升重建表现,本文采用对抗损失,并对RGB图像应用一个无需学习的预处理步骤(使用傅里叶变换将输入通道维度从3提升到更大

最低0.47元/天 解锁文章
720

被折叠的 条评论
为什么被折叠?



