Emu: Enhancing Image Generation Models Using Photogenic Needles in a Haystack

原创

已于 2025-04-13 17:01:26 修改 · 428 阅读

·

3

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#stable diffusion

于 2025-04-13 17:00:42 首次发布

Paper: https://arxiv.org/abs/2309.15807

文章目录

1. Introduction

本文提出了quality-tuning，以有效地引导预训练模型仅生成视觉上高度吸引人的图像，同时保持对视觉概念的一般性。

本文的关键发现在于：在一个规模非常小但高度吸引人的图像数据集上进行SFT，可以显著提供图像的生成质量。

具体而言，本文在110亿图文对上首先预训练了一个latent diffusion model，然后在仅几千张精心挑选的高质量图像数据集上进行微调后，得到了Emu。

Emu和仅预训练的latent diffusion model对比，胜率达到82.9%，而与目前最为先进的SDXLv1.0相比，Emu在标准的PartiPrompts和本文的Open User Input benchmark上各自取得了68.4%和71.3%的胜率。

Quality-tuning是一个通用的策略，其对于pixel diffusion和masked generative transformer models等其他架构也一样适用。

Quality-tuning很类似与LLM中的Instruction-tuning：

Quality-tuning和Instruction-tuning一样，可以显著提升生成模型的能力。
Quality-tuning和Instruction-tuning一样，相较于Pretraining阶段，只需要非常少量的高质量数据即可。
Quality-tuning和Instruction-tuning一样，不会导致其在Pretraining阶段习得的知识被遗忘。

Quality-tuning阶段的数据筛选标准是主观的，会受到各自文化的影响。本文则是遵循了摄影中的一些基本原则，包括但不限于构图、光照、色彩、有效分辨率、对焦、故事叙述的指引性等。

Emu的部分生成结果如下：

2. Method

本文将生成模型的训练分为两个阶段：

Knowledge Learning Stage（Pretraining Stage）
Quality-Tuning Stage（Finetuning Stage）

正如Introduction中所提，本文的关键洞察在于以下三点：

微调数据集可以非常小，仅需几千张图像
数据集的质量需要非常高，这使得数据集的完全自动化几乎不可能，需要通过人工进行标注
即使使用很小的微调数据集，Quality-Tuning不仅显著提高了生成图像的美感，而且没有牺牲其图文一致性

2.1 Latent Diffusion Architecture

本文设计了一个Latent Diffusion Model，可以生成1024x1024分辨率的图像，和标准的Latent Diffusion Architecture设计一致，Emu也包括一个AutoEncoder（用于将Image编码为Latent Embeddings）以及一个UNet（学习去噪过程）。

本文发现常用的4-channel AutoEncoder（AE-4）由于压缩率过高，会导致重建图像缺乏细节，而将通道数提升至16可以显著提升重建质量。

为了进一步提升重建表现，本文采用对抗损失，并对RGB图像应用一个无需学习的预处理步骤（使用傅里叶变换将输入通道维度从3提升到更大

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。