Text to image论文精读SeedSelect 使用SeedSelect微调扩散模型It’s all about where you start_texttoimage

收集整理了一份《2024年最新物联网嵌入式全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升的朋友。

如果你需要这些资料，可以戳这里获取

需要这些体系化资料的朋友，可以加我V获取：vip1024c （备注嵌入式）

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人

都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

Stable Diffusion (SD)结构图如下图所示。

红色部分Pixel Space：训练编码器E将给定图像x映射到空间潜码z = E(x)。随后，解码器D负责重建输入图像，使D(E(x))≈x，从而确保潜在表示准确捕获原始图像。

绿色部分Latent Space：主体是一个去噪扩散概率模型（DDPM），其对学习到的潜空间进行操作，其在每个时间步长t产生一个去噪版本的输入潜zt。在去噪过程中，扩散模型可以以一个额外的输入向量为条件。

白色部分：条件信息。在Stable Diffusion中，额外的条件输入通常是由预训练的CLIP文本编码器产生的文本编码。给定条件提示y，条件向量记为c(y)。
在这里插入图片描述
损失函数为：

∼

(

)

∼

(

)

[

∥

−

(

)

∥

]

\mathcal{L}=\mathbb{E}_{z \sim \mathcal{E}(x), y, \varepsilon \sim \mathcal{N}(0,1), t}\left[\left|\varepsilon-\varepsilon_{\theta}\left(z_{t}, t, c(y)\right)\right|_{2}^{2}\right]

L=Ez∼E(x),y,ε∼N(0,1),t[∥ε−εθ(zt,t,c(y))∥22]

其中,z表示噪声，zt表示噪声的潜在编码向量，c(y)表示条件编码，t表示时间步长，

\varepsilon

ε是一个包含自注意力层和交叉注意力层的UNet网络。

四、Few-shot Seed Selection

4.1、目标

主要想法是使用少数训练图像：

I^1

I1、

I^2

I2、

I^3

I3…

I^n

In，n为3~5,目标是找到一个初始张量

z^G_T

zTG,其生成的图像与训练图像相似，这种一致包括语义一致性和表现一致性：

语义一致性：

dist

⁡

(

)

\mathcal{L}_{S e m a n t i c}=\operatorname{dist}_{v}\left(\mu_{v}, v^{G}\right)

LSemantic=distv(μv,vG),其中

\mu_{v}

μv为真实图像集使用CLIP编码后的质心，

v^{G}

vG为生成图像使用CLIP编码后的特征，dist为欧几里得距离。
2. 表现一致性：

dist

⁡

(

)

\mathcal{L}_{Appearance}=\operatorname{dist}_{z}\left(\mu_{z}, z^{G}_0\right)

LAppearance=distz(μz,z0G),其中

\mu_{z}

μz为真实图像集使用VAE编码后的质心，

z^{G}

zG为生成图像使用VAE编码后的特征，dist为欧几里得距离。

最终

(

−

)

\mathcal{L}_{Total}=λ\mathcal{L}_{S e m a n t i c} + (1-λ)\mathcal{L}_{Appearancec}

LTotal=λLSemantic+(1−λ)LAppearancec

4.2、Seed Select

当用头部类训练时，模型学习将高斯分布的大部分映射到正确类的图像中。然而，对于尾部类，模型只能为该分布的有限区域生成正确的类。

那么如果可以定位分布的这些区域，就仍然可以从尾部类生成图像。基于此，提出通过在噪声空间中对种子进行优化来发现这些区域，从而提高与目标稀有概念的一小组训练图像的语义和外观一致性。

在这里插入图片描述
方法这一小节，我感觉作者并没有说的很清楚，下面是我结合图像的一些理解，如有错误，敬请指出：
如上图所示，固定VAE编码器、CLIP编码器、DDPM主扩散过程。选取部分罕见样本图像使用VAE和CLIP分别编码，然后选取罕见样本的文本c(y)作为输入，然后使用初始噪声生成图像

I^G

IG,然后将其与真实图像编码后的特征分别相比，利用语义损失和表现损失来微调，以找到合适的随机种子

z^G_T

zTG。

4.3、提高选取速度和质量

Contrasting classes：当从一组C类生成图像时，作者通过使用监督对比损失进一步提高训练收敛性和图像质量。这种损失发生在语义空间;它使语义向量vG更接近其类的质心µcv，并使其远离其他类的质心。更新后的语义损失为：

Semantic

−

log

⁡

−

dist

收集整理了一份《2024年最新物联网嵌入式全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升的朋友。

如果你需要这些资料，可以戳这里获取

需要这些体系化资料的朋友，可以加我V获取：vip1024c （备注嵌入式）

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人

都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

像编码后的特征分别相比，利用语义损失和表现损失来微调，以找到合适的随机种子

z^G_T

zTG。

4.3、提高选取速度和质量

Semantic

−

log

⁡

−

dist

收集整理了一份《2024年最新物联网嵌入式全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升的朋友。
[外链图片转存中…(img-koJeMxTt-1715794104746)]
[外链图片转存中…(img-Xx1Yc60w-1715794104746)]

如果你需要这些资料，可以戳这里获取

需要这些体系化资料的朋友，可以加我V获取：vip1024c （备注嵌入式）

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人

都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！