《通过DINO语义引导进行可变形单次人脸风格化》学习笔记

最新推荐文章于 2025-06-13 19:04:42 发布

种花生的图图

最新推荐文章于 2025-06-13 19:04:42 发布

阅读量1k

点赞数 10

分类专栏：生成式模型文章标签：学习笔记深度学习 pytorch 人工智能计算机视觉

本文链接：https://blog.youkuaiyun.com/weixin_56848903/article/details/145558552

版权

生成式模型专栏收录该内容

12 篇文章

订阅专栏

paper:2403.00459

GitHub：zichongc/DoesFS: [CVPR '24] Official repository for Deformable One-shot Face Stylization via DINO Semantic Guidance

3.3 变形感知生成器（Deformation-aware Generator）

3.4 基于 DINO 的域适应（DINO-based Domain Adaption）

3.4.1方向性变形损失（Directional Deformation Loss）

3.4.2 相对结构一致性（Relative Structural Consistency）

3.4.3 对抗性风格迁移（Adversarial Style Transfer）

3.4.4 总损失函数（Total Loss Function）

3.5 颜色对齐（Color Alignment）

4、实验

4.1 实验细节

4.2 对比实验

4.2.1 定性对比（Qualitative Comparison）

4.2.2 定量对比（Quantitative Comparison）

4.3 消融实验

4.3.1 损失项的影响（Effect of loss terms）

4.3.2 STN模块的影响（Effect of STN blocks）

4.3.3 颜色对齐的影响（Effect of color alignment）

4.4 面部变形控制（Facial deformation control）

摘要

本文解决了单次人脸风格化中复杂的问题，重点考虑了外观和结构的同时处理，而以往的方法在这方面存在不足。我们探索了一种具有变形感知的人脸风格化方法，这不同于传统的单图像风格参考，而是选择了一个真实风格图像对。我们方法的核心是利用自监督的视觉Transformer，特别是DINO-ViT，建立了一个在真实图像和风格图像领域中一致且鲁棒的人脸结构表示。我们的风格化过程从将StyleGAN生成器调整为变形感知开始，通过集成空间变换网络（STN）。然后，我们引入了两种创新的约束，用于在DINO语义引导下进行生成器微调：i) 方向变形损失，它调节DINO空间中的方向向量，ii) 基于DINO标记自相似性的相对结构一致性约束，确保多样性的生成。此外，还采用了风格混合方法，以便将颜色生成与参考图像对齐，减少不一致的对应关系。该框架为一般的单次人脸风格化提供了增强的变形能力，并以大约10分钟的微调时间达到了显著的效率。大量的定性和定量比较表明，我们的方法优于现有的最先进单次人脸风格化方法。

1、介绍

人脸风格化是一种时尚且引人注目的应用，深受社交媒体和虚拟世界用户的喜爱。近年来的进展 [22, 31, 36-38] 主要得益于生成模型的能力，例如 StyleGAN [16-18]。当面临极为有限的艺术风格示例（例如，只有一个示例）时，必须防止训练过程中的过拟合和模式崩溃。许多单次风格化方法 [6, 21, 40, 45] 采用了不同的策略解决了这个问题。然而，这些方法主要关注颜色和纹理的迁移，很少探讨几何变形的潜力。由于夸张是艺术风格的重要特征，因此在风格化过程中也应强调结构变形。

我们能否根据仅一个风格示例对人脸图像进行风格化，同时考虑外观变化和结构夸张呢？以往的方法 [6, 21, 45] 通过在源领域和目标领域之间建立“假”的引导来解决这个问题，基于风格参考的反演。然而，如图2所示，当前的GAN反演技术，如 [2] 和 [32]，仍然无法为艺术图像生成可靠的映射，这将一定误导几何变形，尤其是在强夸张发生时。我们认为，可以通过使用真实风格图像对而不是单一风格示例，在领域之间建立可靠的变形引导，从而减少难度；见图1。例如，现有的单次风格化方法仍然未能捕捉到变形模式，因为它们使用的结构引导较弱；

在本研究中，我们提出了一种新的风格化网络，仅基于单个真实风格图像对进行训练。该网络基于预训练的 StyleGAN，并在其上附加了空间变换器（STN）使生成器具有变形感知能力。为了克服给定配对参考之间的巨大领域差距，我们深入挖掘了 DINO[5] 的特征空间，这是一个自监督的视觉Transformer。我们提供了证据表明 DINO 能够在真实和风格面部领域中捕捉到鲁棒且一致的结构语义，优于其他流行的视觉Transformer。因此，我们基于 DINO 语义引导优化生成器，学习跨领域的结构变形。具体来说，我们计算了一种新颖的方向变形损失，它正则化了 DINO 空间中真实面部与风格面部之间的方向向量。同时，计算了一种新的相对结构一致性损失，基于 DINO 特征的自相似性，确保目标（风格）领域的多样性，防止过拟合。最后，基于风格混合技术应用颜色对齐，以进一步保证语义对应的正确性。实验表明，我们的方法能够准确地将人脸图像风格化为艺术风格，强烈的夸张表现了外观变化和结构变形，同时保持了输入图像的忠实身份。

主要贡献总结如下：

我们探索了 DINO 的特征空间，并发现其在真实和风格面部领域中的强大结构/语义表示能力。
基于 DINO 特征，我们提出了两种新颖的跨领域损失，以约束从真实面部到艺术风格的几何变形。
我们提出了一种新的可变形人脸风格化网络，仅使用单个配对的真实风格示例进行训练。大量的定性和定量比较与现有最先进的方法相比，证明了我们框架的有效性和优越性。

2、相关工作

2.1 人脸风格化

在人脸风格化领域，得益于深度学习技术的进展，风格化方法发展迅速。自从[10]的开创性工作以来，基于神经风格迁移的方法被提出用于人脸风格化[13, 19, 20, 30, 34]。然而，这些通用风格迁移方法并没有利用生成模型（如GANs）学习到的先验知识[12]。相比之下，基于图像翻译的方法[4, 11, 15, 22, 26, 28, 31, 37]通常训练专用的风格化GAN，或者对预训练的StyleGAN进行微调[17, 18]，这些方法通常基于大量的艺术人脸图像进行训练（从数百张到数千张）。虽然其中一些方法对于讽刺画肖像等具有变形感知能力，但由于数据量的需求，它们无法应对极为有限示例定义的风格，这在现实应用中是最常见的情况。最近，研究者们通过引入一系列正则化方法来解决域适应中的少量数据挑战[23, 24, 35, 41-43]。在具体的人脸风格化方面，一些工作[6, 21, 40, 45]进一步使用单个示例作为风格参考。虽然这些方法可以生成风格化的面部外观，但单次风格化方法往往过于严格地保持面部结构，同时忽视了风格示例中的非局部变形。在本工作中，我们提出了基于单一配对数据的变形人脸风格化的新框架。

2.2 ViT特征表示

来自视觉Transformer（ViT）[8]的特征是强大且多功能的视觉表示。研究人员已经证明，通过特定的训练方式，ViT能够很好地服务于视觉和图形领域的多个下游任务[3, 5, 27, 44]。其中，CLIP [27]被广泛用于文本引导的图像编辑[25]、生成[9]和风格化[21, 40, 45]。然后，DINO [5]，一种自监督的ViT模型，展示了在捕捉高层语义信息方面的突出特性[3]。Amir等人[3]使用DINO的键作为ViT特征，并将其应用于许多挑战性视觉任务，尤其是在无约束的环境下。Tumanyan等人[33]进一步将DINO特征切分为解耦的外观和结构表示，实现了从一张自然图像到另一张自然图像的语义感知外观转移。考虑到DINO取得的成功，我们认为DINO在变形人脸风格化方面具有潜力。接下来，我们将探索DINO特征，并将其与其他两种ViT特征进行比较。

3、方法

3.1 预备知识

DINO（Self-Distillation with No Labels）是一种基于自蒸馏（self-distillation）的视觉 Transformer（ViT）模型。训练时，它通过以下方法进行：

蒸馏操作：输入图像被随机变换为两个版本，分别输入到学生网络（student network）和教师网络（teacher network）。这两个网络具有相同的架构，但参数不同，学生网络通过交叉熵损失优化，使其输出尽可能接近教师网络的输出。教师网络的参数由学生网络的指数移动平均（EMA）更新。

DINO 的特点：高分辨率的语义编码能力：能够学习高级语义信息，并且在空间上保持高解析度。对结构语义的关注：能够在不同域之间（如真实人脸和风格化人脸）提取一致的语义表示。

CLIP（Contrastive Language-Image Pretraining）通过对比学习方法，将文本和图像映射到同一嵌入空间，已广泛用于图像风格迁移任务。但由于 CLIP 依赖文本指导，其语义捕捉能力可能受到自然语言歧义的影响，导致特征不够精准。

FaRL（Face Representation Learning）也是一种文本引导的多模态模型，专门用于人脸特征提取。其目标是学习人脸的多模态嵌入，以提高对语义相似度的估计能力。

作者通过 PCA（主成分分析）对比 DINO、CLIP 和 FaRL 提取的特征：

DINO 提取的高级特征更加清晰、精准，并且跨域（真实人脸 vs. 艺术人脸）更加一致。

DINO 的低级特征同时包含语义信息和位置信息，而 CLIP 和 FaRL 的特征较为混乱。

由于 DINO 采用了自蒸馏训练方式，它自然会关注结构化的语义信息，而 CLIP/FaRL 由于依赖文本指导，导致语义表达精度下降。

结论：

（1）DINO 在面部风格化任务中的语义表示能力优于 CLIP 和 FaRL。

（2）DINO 自蒸馏方法的 成对数据增强（pair-wised augmentation） 使其更关注结构语义，而 CLIP/FaRL 由于文本指导的不确定性，无法很好地对齐不同风格的人脸语义。

（3）以往研究 [3,33] 认为 DINO 的 keys（键值）适用于语义表示，但本文通过过拟合测试发现 keys 可能会丢失部分结构语义。因此，作者选择 DINO tokens 作为语义特征，称之为 DINO 语义引导（DINO Semantic Guidance）。

3.2 框架

如图 4 所示，我们框架的核心是一个变形感知生成器 $G^t$ ，其由两个新提出的基于 DINO 的损失函数和一个对抗性损失进行微调。具体而言，我们的 $G^t$ 构建在 StyleGANv2 [18] 之上，并在其基础上附加了空间变换模块（spatial transformers） [14] 以建模结构变形。 $w_s$

输入：源图像和目标图像，分别被编码成 $w^s_{ref}$ 和 $w_{ref}^t$ 。这些是潜在表示，类似于StyleGAN中的W+空间。然后，这些表示与随机样本 $w$ 通过一个“concat”操作被连接起来，生成 $w_s$ 和 $w_t$ 。

$w_s$ 和 $w_t$ 被输入到两个生成器 $G^s$ 和 $G^t$ 中。 $G^s$ 是一个冻结的生成器，用于保持源图像的某些特征，而 $G^t$ 是一个可训练的生成器，用于学习目标风格。这里还有一个 $L_{ref}$ 损失，用于正则化生成器 $G^t$ ，防止过拟合。

DINO是用于视觉表示学习的一个自监督方法，这里利用DINO的特征空间来计算损失。具体来说，有两个损失： $L_{direct}$ 和 $L_{cons}$ 。 $L_{direct}$ 是直接在DINO特征空间中比较生成图像和目标图像的损失，而 $L_{cons}$ 确保相对结构一致性。这有助于生成器学习到几何变形和外观转移，同时保持结构的合理性。

右边部分涉及对抗训练。风格参考图像被输入到生成器 $G^t$ ，生成的图像被输入到一个可训练的判别器 $D_{patch}$ 中。判别器在patch级别上工作，损失 $L_{adv}$ 是对抗损失，确保生成的图像足够真实，能够欺骗判别器。

在训练过程中，我们首先在 $W+$ 空间中采样一个潜变量 $w \in \mathbb{R}^{18 \times 512}$ ，然后进行风格混合（style mixing） 以实现颜色对齐。随后，我们将该潜变量分别输入 $G^t$ 和 $G^s$ ，其中 $G^s$ 是一个预训练的 StyleGAN 生成器，在训练过程中被冻结，而 $G^t$ 则会根据新提出的损失函数进行微调。

在推理时，我们首先将输入人脸图像输入预训练的 e4e 编码器 [32]，从而获得其反演编码 $w^*$ （即该图像在 $W+$ 空间中的映射）。然后，只需进行一次前向推理，即可通过 $G^t(w^*)$ 生成对应的风格化人脸图像。

在接下来的部分，我们将详细描述变形感知生成器的构造，然后介绍DINO 语义引导的域自适应，其中包含两个基于 DINO 语义特征的新约束。最后，我们将讲解颜色对齐策略，以进一步增强风格转换的稳定性。

3.3 变形感知生成器（Deformation-aware Generator）

StyleGAN [18] 在大规模人脸数据集（如 FFHQ [17]）上进行预训练，在各种人脸图像生成任务中表现出色。然而，它难以生成具有夸张组件的面部图像，因为其学习到的先验知识主要来源于真实人脸域。受到 [38] 的启发，我们对 StyleGAN 的中间特征进行变形，以增强生成器输出所需的变形模式。

如图 5 所示，我们在 StyleGAN 生成器的合成块（synthesis block）后加入了一个简单的可微空间变换网络（STN, Spatial Transformer Network） [14]，记作Transform。Transform 模块可以通过一次前向传递（forward pass）对特征图进行变换，支持的变换类型包括平移、旋转、薄板样条变形（TPS, Thin-Plate Spline Warping）等。在本研究中，我们选用了 TPS-STN 来对特征图进行变形，同时采用一个基本 STN（架构与 TPS-STN 相同）来执行平移、旋转和缩放操作。

在实验中，我们仅在32×32 和 64×64 分辨率的特征层上添加 Transform 模块，并将网格大小设置为 10。

我们并非首个尝试让 StyleGAN 具备变形感知能力的研究。StyleCariGAN [15] 提出了一个基于 CNN 的夸张变形块（exaggeration block），并在 StyleGAN 的不同层中进行混合。然而，这些变形模块需要额外的大量训练数据，而我们的 STN 变换模块仅对特征图进行简单的几何变换，可以直接插入预训练的 StyleGAN 生成器中。

根据 [11] 的研究，我们对 TPS 变形场（warping field）进行正则化，以保证其平滑性：

$L_{\text{reg}} = \sum_{i,j \in F} \left( 2 - \text{sim}(F_{i,j-1}, F_{i,j}) - \text{sim}(F_{i-1,j}, F_{i,j}) \right)$

其中：

$\text{sim}(\cdot, \cdot)$ 表示两个像素位置变形向量之间的余弦相似度（cosine similarity）。
$F$ 代表变形场（warping field）， $i,j$ 表示像素索引。

该损失项约束了变形场，使其在空间上保持平滑，避免不合理的几何畸变。

3.4 基于 DINO 的域适应（DINO-based Domain Adaption）

我们的变形感知生成器是通过在 FFHQ 上预训练的 StyleGANv2 模型初始化的。为了将其适应于由样式参考定义的目标域，我们通过三种标准对生成器进行微调：

一个新的方向性变形损失（directional deformation loss），引导跨域的结构变形，
一个新设计的相对结构一致性损失（relative structural consistency），用于传递生成的多样性,
一个对抗损失（adversarial loss），有助于风格合成。

3.4.1方向性变形损失（Directional Deformation Loss）

基于第 3 节中的 DINO 语义引导，我们构建了一个方向性变形损失，用于引导跨域的结构变形。如图 4 所示，给定一对参考图像，我们首先将它们投影到 DINO 空间，并计算从源域到目标域的结构变换方向。

表示为 $d_{\text{ref}} = E_D(I_{\text{ref}}^{t}) - E_D(I_{\text{ref}}^{s})$ ，作为方向性变形参考。我们期望生成的图像的变形方向与变形参考对齐。类似于 [9]，我们通过余弦相似度来计算基于 DINO 的方向性损失，公式为：

$L_{\text{direct}} = 1 - \text{sim}\left( \frac{d_w}{\|d_w\|}, \frac{d_{\text{ref}}}{\|d_{\text{ref}}\|} \right)$

其中 $d_w = E_D(G_t(w)) - E_D(G_s(w))$ ， $E_D$ 是 DINO 编码器， $w$ 是 $W+$ 空间中的潜变量。

3.4.2 相对结构一致性（Relative Structural Consistency）

作为少样本训练，单独使用上述的方向性变形引导可能导致过拟合。受到 [24] 的启发，我们引入了相对结构一致性来保持跨域的结构多样性。具体来说，我们通过计算同一域中每两个生成样本之间的差异/相似度来衡量结构一致性。我们使用通过 DINO tokens计算的自相似性向量（self-similarity vector）作为每个样本的结构表示，即：

$s_i = \frac{E_D(I_i)E_D(I_i)^T}{\|E_D(I_i)\|_2^2}$

对于真实对，我们也将它们考虑在相对结构一致性中。因此，分别为源域和目标域形成两个相对相似度矩阵，如图 6 所示。

我们随后将这些相似度矩阵转换为概率分布：

$C^s = \text{softmax}\left( \text{sim}(s^s_i, s^s_j) \right) \, \forall i>j, i,j=1,...,N \cup \text{softmax}\left( \text{sim}(s^s_i, s^s_{\text{ref}}) \right) \, \forall i=1,...,N$

$C^t = \text{softmax}\left( \text{sim}(s^t_i, s^t_j) \right) \, \forall i>j, i,j=1,...,N \cup \text{softmax}\left( \text{sim}(s^t_i, s^t_{\text{ref}}) \right) \, \forall i=1,...,N$

其中，sim 表示余弦相似度，N 是批量大小， $s$ 和 $t$ 的下标分别表示从 $G^s$ 和 $G^t$ 生成的样本。为了使目标域生成的图像在结构多样性上与源域相似，我们计算它们之间的均方误差（MSE）损失：

$L_{\text{cons}} = \frac{1}{|C|} \sum_{i=1}^M \| C^t_i - C^s_i \|_2^2$

3.4.3 对抗性风格迁移（Adversarial Style Transfer）

考虑到使用 DINO 特征，前述的两个组件主要对应于结构变形。为了保证面部风格化的正确颜色转移，我们根据 [24] 引入了一个局部判别器（patch-level discriminator） $D_{\text{patch}}$ 。与图像级判别器不同，局部判别器更关注局部纹理和颜色。同时，我们发现判别器有助于提高生成的人脸图像的逼真度，得益于对抗性训练。按照 [24] 的方法，我们微调了一个在 FFHQ 上预训练的 StyleGANv2 判别器，并提取具有 22×22 有效patch大小的层。判别器 $D_{\text{patch}}$ 和变形感知生成器 $G^t$ 的对抗损失分别为：

$L^D_{\text{adv}} = \log(1 - D_{\text{patch}}(I_{\text{ref}}^{t})) + \mathbb{E}_w[\log(D_{\text{patch}}(G^t(w)))]$

$L^G_{\text{adv}} = -\mathbb{E}_w[\log(D_{\text{patch}}(G^t(w)))]$

3.4.4 总损失函数（Total Loss Function）

最终，总的损失函数可以表示为：

$L_{\text{total}} = L_{\text{adv}} + \lambda_{\text{direct}} L_{\text{direct}} + \lambda_{\text{cons}} L_{\text{cons}} + \lambda_{\text{reg}} L_{\text{reg}}$

3.5 颜色对齐（Color Alignment）

尽管 DINO 在其特征空间中有效地解耦了图像的结构和外观，但真实面部领域中的大量颜色变化可能会导致结构匹配中的不必要误差。为了缓解这一干扰，我们使用 StyleGAN 的反向映射和风格混合技术来对齐样本的颜色。如图 4 最左侧所示，我们首先通过优化 L1 损失和感知损失 [39] 从一个平均潜变量 $\bar{w}$ 反向映射配对的参考图像 $(I^s_{\text{ref}} \quad I^t_{\text{ref}})$ 到源域的潜在空间，从而获得它们的潜变量 $w^s_{\text{ref}}, w^t_{\text{ref}} \in \mathbb{R}^{18 \times 512}$ 。接着，对于一个随机样本 $w$ 在 $W+$ 空间中，我们与 [6, 21, 45] 不同，交换 $w$ 的细节层（第9到第18层）与 $w^s_{\text{ref}}$ 和 $w^t_{\text{ref}}$ 的对应层，从而得到潜变量 $w_s, w_t$ ，它们与参考图像在颜色上对齐。经过颜色对齐后生成的图像与原始随机样本在结构和身份上保持一致，但颜色与相应的参考图像对齐。

4、实验

4.1 实验细节

我们的框架基于 StyleGANv2 [18]，并通过在 FFHQ [17] 上预训练的模型进行初始化。我们经验性地设置了 $\lambda_{\text{direct}} = 6$ 、 $\lambda_{\text{cons}} = 5 \times 10^{4}$ 和 $\lambda_{\text{reg}} = 10^{-6}$ 。在训练过程中，我们将批量大小设置为 4，并使用 ADAM 优化器，生成器的学习率为 0.002，遵循现有的单次训练方法 [6, 21, 40, 45]。对于多分辨率 STN 模块，我们将 TPS-STN 和基本 STN 的学习率分别设置为 $5 \times 10^{-6}$ 和 $10^{-4}$ ，与生成器的学习率不同，但它们会一起微调。所有附加的 STN 都包含两个卷积层，后面跟着两个线性层。我们使用 DINO 的 M 级和 H 级特征来计算方向性变形指导，并仅使用 M 级特征来计算相对结构一致性，因为我们希望在改变语义内容的同时保留更多的位置信息。所有实验均使用单个 NVIDIA RTX 3090 显卡进行。为了简化，我们使用的配对参考主要来自于已经通过大量训练数据训练的现有生成模型，如 [1, 15, 31, 37]。这些模型可以将面部图像进行风格化，并且产生的结果足以代表真实的配对图像。

4.2 对比实验

为了验证我们框架的有效性，我们进行了定性和定量的对比实验，和几个基线方法进行了比较，包括 MTG [45]、JoJoGAN [6]、DiFa [40] 和 OneshotCLIP [21]。为了公平比较，我们还将 MTG 和 JoJoGAN 转换为配对单次方法进行比较。

4.2.1 定性对比（Qualitative Comparison）

图 7 展示了使用不同适配方法将两张真实肖像风格化成三种不同风格的结果。由于风格参考的不准确反向映射，比较的单次方法未能捕捉到夸张的组件（例如，三种示例中的面部轮廓）。相反，我们的方法能够风格化面部，并实现合理的夸张效果和正确的颜色转移。我们还将 MTG 和 JoJoGAN 转换为接受配对参考进行训练的版本，具体细节请参见补充材料（MTG-pair 和 JoJoGAN-pair）。

图 8 显示了定性比较，结果表明我们的风格化效果具有更好的颜色风格和更细致的几何变形。相比之下，两个变体仍然局限于生成变形面孔，因为它们缺乏精确的跨域结构指导。更多的比较结果可以在补充材料中查看。

4.2.2 定量对比（Quantitative Comparison）

我们从感知、变形和身份三个方面评估生成的结果。对于感知评估，我们计算了广泛使用的 LPIPS 距离 [39]。为了评估结构变形和身份，我们设计了两个新的指标：方向性内容一致性（dir-CC）和方向性身份相似性（dir-ID）。对于这两个指标，我们首先计算每对源域和目标域之间的方向性特征向量。由于参考配对提供了真实的方向性向量，我们通过计算真实配对和生成配对之间的余弦相似度来进行测量。鉴于我们已经在训练中使用了 DINO 特征，为了公平比较，我们还使用了 VGG [29] 和 ArcFace [7] 特征来进行这两个指标的计算。

表 1 列出了完整的定量评估。具体来说，我们的方法在变形和身份方面相较于仅使用风格参考训练的单次方法具有明显的优势。与“配对”变体相比，我们的方法在大多数指标上仍然领先，特别是在风格感知和结构变形方面。

4.3 消融实验

4.3.1 损失项的影响（Effect of loss terms）

如图 9 所示，方向性变形损失 $L_{\text{direct}}$ 提供了可靠的变形指导，但同时也会导致过拟合。相对结构一致性损失 $L_{\text{cons}}$ 确保了跨域的正确对应，但也引入了一定的颜色变化。对抗性损失有助于稳定风格的质量。因此，我们的完整损失项在保证变形和风格一致性的同时取得了平衡。