Emu: Enhancing Image Generation Models Using Photogenic Needles in a Haystack

Paper: https://arxiv.org/abs/2309.15807

1. Introduction

本文提出了quality-tuning,以有效地引导预训练模型仅生成视觉上高度吸引人的图像,同时保持对视觉概念的一般性。

本文的关键发现在于:在一个规模非常小但高度吸引人的图像数据集上进行SFT,可以显著提供图像的生成质量。

具体而言,本文在110亿图文对上首先预训练了一个latent diffusion model,然后在仅几千张精心挑选的高质量图像数据集上进行微调后,得到了Emu。

Emu和仅预训练的latent diffusion model对比,胜率达到82.9%,而与目前最为先进的SDXLv1.0相比,Emu在标准的PartiPrompts和本文的Open User Input benchmark上各自取得了68.4%和71.3%的胜率。

Quality-tuning是一个通用的策略,其对于pixel diffusion和masked generative transformer models等其他架构也一样适用。

Quality-tuning很类似与LLM中的Instruction-tuning:

  1. Quality-tuning和Instruction-tuning一样,可以显著提升生成模型的能力。
  2. Quality-tuning和Instruction-tuning一样,相较于Pretraining阶段,只需要非常少量的高质量数据即可。
  3. Quality-tuning和Instruction-tuning一样,不会导致其在Pretraining阶段习得的知识被遗忘。

Quality-tuning阶段的数据筛选标准是主观的,会受到各自文化的影响。本文则是遵循了摄影中的一些基本原则,包括但不限于构图、光照、色彩、有效分辨率、对焦、故事叙述的指引性等。

Emu的部分生成结果如下:

2. Method

本文将生成模型的训练分为两个阶段:

  • Knowledge Learning Stage(Pretraining Stage)
  • Quality-Tuning Stage(Finetuning Stage)

正如Introduction中所提,本文的关键洞察在于以下三点:

  1. 微调数据集可以非常小,仅需几千张图像
  2. 数据集的质量需要非常高,这使得数据集的完全自动化几乎不可能,需要通过人工进行标注
  3. 即使使用很小的微调数据集,Quality-Tuning不仅显著提高了生成图像的美感,而且没有牺牲其图文一致性

2.1 Latent Diffusion Architecture

本文设计了一个Latent Diffusion Model,可以生成1024x1024分辨率的图像,和标准的Latent Diffusion Architecture设计一致,Emu也包括一个AutoEncoder(用于将Image编码为Latent Embeddings)以及一个UNet(学习去噪过程)。

本文发现常用的4-channel AutoEncoder(AE-4)由于压缩率过高,会导致重建图像缺乏细节,而将通道数提升至16可以显著提升重建质量。

为了进一步提升重建表现,本文采用对抗损失,并对RGB图像应用一个无需学习的预处理步骤(使用傅里叶变换将输入通道维度从3提升到更大

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值