收集整理了一份《2024年最新物联网嵌入式全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升的朋友。
需要这些体系化资料的朋友,可以加我V获取:vip1024c (备注嵌入式)
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人
都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
Stable Diffusion (SD)结构图如下图所示。
红色部分Pixel Space:训练编码器E将给定图像x映射到空间潜码z = E(x)。随后,解码器D负责重建输入图像,使D(E(x))≈x,从而确保潜在表示准确捕获原始图像。
绿色部分Latent Space:主体是一个去噪扩散概率模型(DDPM),其对学习到的潜空间进行操作,其在每个时间步长t产生一个去噪版本的输入潜zt。在去噪过程中,扩散模型可以以一个额外的输入向量为条件。
白色部分:条件信息。在Stable Diffusion中,额外的条件输入通常是由预训练的CLIP文本编码器产生的文本编码。给定条件提示y,条件向量记为c(y)。
损失函数为:
L
=
E
z
∼
E
(
x
)
,
y
,
ε
∼
N
(
0
,
1
)
,
t
[
∥
ε
−
ε
θ
(
z
t
,
t
,
c
(
y
)
)
∥
2
2
]
\mathcal{L}=\mathbb{E}_{z \sim \mathcal{E}(x), y, \varepsilon \sim \mathcal{N}(0,1), t}\left[\left|\varepsilon-\varepsilon_{\theta}\left(z_{t}, t, c(y)\right)\right|_{2}^{2}\right]
L=Ez∼E(x),y,ε∼N(0,1),t[∥ε−εθ(zt,t,c(y))∥22]
其中,z表示噪声,zt表示噪声的潜在编码向量,c(y)表示条件编码,t表示时间步长,
ε
\varepsilon
ε是一个包含自注意力层和交叉注意力层的UNet网络。
四、Few-shot Seed Selection
4.1、目标
主要想法是使用少数训练图像:
I
1
I^1
I1、
I
2
I^2
I2、
I
3
I^3
I3…
I
n
I^n
In,n为3~5,目标是找到一个初始张量
z
T
G
z^G_T
zTG,其生成的图像与训练图像相似,这种一致包括语义一致性和表现一致性:
- 语义一致性:
L
S
e
m
a
n
t
i
c
=
dist
v
(
μ
v
,
v
G
)
\mathcal{L}_{S e m a n t i c}=\operatorname{dist}_{v}\left(\mu_{v}, v^{G}\right)
LSemantic=distv(μv,vG),其中
μ
v
\mu_{v}
μv为真实图像集使用CLIP编码后的质心,
v
G
v^{G}
vG为生成图像使用CLIP编码后的特征,dist为欧几里得距离。
2. 表现一致性:
L
A
p
p
e
a
r
a
n
c
e
=
dist
z
(
μ
z
,
z
0
G
)
\mathcal{L}_{Appearance}=\operatorname{dist}_{z}\left(\mu_{z}, z^{G}_0\right)
LAppearance=distz(μz,z0G),其中
μ
z
\mu_{z}
μz为真实图像集使用VAE编码后的质心,
z
G
z^{G}
zG为生成图像使用VAE编码后的特征,dist为欧几里得距离。
最终
L
T
o
t
a
l
=
λ
L
S
e
m
a
n
t
i
c
(
1
−
λ
)
L
A
p
p
e
a
r
a
n
c
e
c
\mathcal{L}_{Total}=λ\mathcal{L}_{S e m a n t i c} + (1-λ)\mathcal{L}_{Appearancec}
LTotal=λLSemantic+(1−λ)LAppearancec
4.2、Seed Select
当用头部类训练时,模型学习将高斯分布的大部分映射到正确类的图像中。然而,对于尾部类,模型只能为该分布的有限区域生成正确的类。
那么如果可以定位分布的这些区域,就仍然可以从尾部类生成图像。基于此,提出通过在噪声空间中对种子进行优化来发现这些区域,从而提高与目标稀有概念的一小组训练图像的语义和外观一致性。
方法这一小节,我感觉作者并没有说的很清楚,下面是我结合图像的一些理解,如有错误,敬请指出:
如上图所示,固定VAE编码器、CLIP编码器、DDPM主扩散过程。选取部分罕见样本图像使用VAE和CLIP分别编码,然后选取罕见样本的文本c(y)作为输入,然后使用初始噪声生成图像
I
G
I^G
IG,然后将其与真实图像编码后的特征分别相比,利用语义损失和表现损失来微调,以找到合适的随机种子
z
T
G
z^G_T
zTG。
4.3、提高选取速度和质量
Contrasting classes:当从一组C类生成图像时,作者通过使用监督对比损失进一步提高训练收敛性和图像质量。这种损失发生在语义空间;它使语义向量vG更接近其类的质心µcv,并使其远离其他类的质心。更新后的语义损失为:
L
Semantic
=
−
log
e
−
dist
收集整理了一份《2024年最新物联网嵌入式全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升的朋友。
需要这些体系化资料的朋友,可以加我V获取:vip1024c (备注嵌入式)
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人
都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
像编码后的特征分别相比,利用语义损失和表现损失来微调,以找到合适的随机种子
z
T
G
z^G_T
zTG。
4.3、提高选取速度和质量
Contrasting classes:当从一组C类生成图像时,作者通过使用监督对比损失进一步提高训练收敛性和图像质量。这种损失发生在语义空间;它使语义向量vG更接近其类的质心µcv,并使其远离其他类的质心。更新后的语义损失为:
L
Semantic
=
−
log
e
−
dist
收集整理了一份《2024年最新物联网嵌入式全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升的朋友。
[外链图片转存中…(img-koJeMxTt-1715794104746)]
[外链图片转存中…(img-Xx1Yc60w-1715794104746)]
需要这些体系化资料的朋友,可以加我V获取:vip1024c (备注嵌入式)
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人
都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!