CVPR2021：领域迁移领域的适应性知识可视化

夜深人静打代码

于 2024-11-15 15:49:03 发布

阅读量1k

点赞数 16

分类专栏：计算机视觉专栏文章标签：机器学习人工智能风格图像生成域适应

本文链接：https://blog.youkuaiyun.com/m0_63294504/article/details/143800735

版权

计算机视觉专栏专栏收录该内容

10 篇文章

订阅专栏

中文标题：领域迁移领域的适应性知识可视化（CVPR2021）

原文标题：Visualizing Adapted Knowledge in Domain Transfer

1、Abstract

基于源数据训练的源模型和通过无监督域自适应（UDA）学习的目标模型通常编码不同的知识。为了了解他们的适应过程，我们用图像翻译来描述他们的知识差异。具体来说，我们将翻译后的图像和原始图像分别输入到两个模型中，形成两个分支。通过更新翻译后的图像，我们强制两个分支输出相似的输出。当满足这些要求时，两个图像之间的差异可以抵消，并将两个图像之间的差异表示模型之间的知识差异。为了确保两个分支产生相似输出，并描述适应的知识，我们提出了一种无源图像转换方法，该方法只需要使用目标图像和两个模型就能生成源样式图像。我们使用不同的UDA方法在多个数据集上对适应的知识进行可视化，发现生成的图像成功地捕获了两个领域之间的风格差异。对于应用程序，我们展示了生成的图像可以在不访问源数据的情况下进一步调优目标模型。

2、Introduction

域转移或域适应旨在弥合源域和目标域之间的分布差距。许多现有的工作在研究目标域是未标记的无监督域适应（UDA）问题。在这个过程中，我们感兴趣的是神经网络到底学习和适应到了什么知识。本质上，我们应该可视化模型之间的知识差异：在源领域上训练的源模型，以及通过UDA为目标领域学习的目标模型。我们的目标是通过图像生成来描绘知识差异。给定转换后的图像及其原始版本，我们将这两个图像分别提供给源模型和目标模型。希望图像对之间的差异能够补偿模型之间的知识差异，从而让两个分支（两个图像分别输入到两个不同模型）产生相似的输出。因此我们可以说图像对就代表了知识差异。

这个可视化问题非常具有挑战性，迄今为止尚未在文献中进行研究。它专注于迁移学习中一个相对未被充分研究的领域，我们从模型中提取知识差异并将其嵌入生成的图像中。一个相关的工作是传统的图像翻译，利用内容图像和样式图像生成所需风格的图像，并应用于UDA的像素级对齐方法。然而，这些作品依靠两个领域的图像来表示风格差异，无法完全地描绘源模型和目标模型之间的知识差异，也无法帮助我们理解适应过程。

在本文中，我们提出了一种无源图像翻译（SFIT）方法，即在不使用源图像的情况下将目标图像转换为源样式。源图像的免用可以防止系统依赖图像对来表示风格差异，并确保系统只从两个模型中学习。具体来说，我们将经过转换后的源样式图像提供给源模型，将原始目标图像提供给目标模型，并通过更新生成网络来强制两个分支产生类似的输出。为此，我们使用了传统的知识蒸馏损失和一种新的关系保留损失，它保持了特征图之间的相对通道关系。我们表明，所提出的关系保持损失也有助于在改变图像样式的同时弥合领域差距，进一步从领域自适应的角度解释了所提出的方法。我们的方法的一些结果如图1所示。我们观察到，即使在无源设置下，来自两个模型的知识仍然可以推动从目标样式到源样式的样式转移（SFIT降低颜色饱和度并使背景变白以模仿未见过的源样式）。

图一：（a）是目标域图像，（c）是源域图像（b）是通过模仿源图像风格生成的图像

我们在几个基准测试中表明，从所提出的 SFIT 方法生成的图像显著缩小了两个模型之间的性能差距，表明成功地提取了自适应知识。此外，当我们在同一数据集上使用不同的UDA方法时，我们发现SFIT在不同程度上传输了图像风格。这进一步验证了SFIT可视化是基于模型的，并且不同的UDA方法可以解决不同程度的风格差异。对于应用程序，我们展示了生成的图像可以作为额外的线索，并允许进一步调整目标模型。

3、Related Work

3.1、Domain adaptation

领域自适应的目的是缩小源域和目标域之间的领域差距。特征级分布对齐是一种流行的策略。Long等人使用最大平均差异（maximum mean discrepancy，MMD）损失来实现这一目的。Tzeng等人提出了一种基于生成式对抗网络（GAN）的带有损失函数的对抗方法ADDA。带有图像翻译的像素级对齐是UDA中的另一种流行选择。Hoffman等人提出了基于CycleGAN图像翻译的CyCADA方法。其他的研究，Saito等人对齐了两个分类器的特定任务决策边界。无源域自适应（SFDA）不使用源数据，因此大大减轻了源数据集发布时的隐私问题。作为早期的尝试，AdaBN 将源CNN中批处理归一化层的统计量调整到目标域。Li等人生成与目标图像分布相同的图像，并使用它们对分类器进行微调。Liang等在目标图像上微调标签平滑源模型。据作者所知，目前还没有任何可视化方法可以表明模型在适应过程中学习了什么。

3.2、Knowledge distillation

知识蒸馏通过最大化教师输出和学生输出之间的互信息，将知识从预训练的教师模型转移到学生模型。一些现有的工作考虑了实例或像素之间的关系，以获得更好的蒸馏性能。与在给定的训练数据集上提取教师知识不同，无数据知识蒸馏（DFKD）首先生成训练数据，然后在生成的数据集上学习学生网络。训练数据可以通过对齐特征统计信息，增强教师的高置信度，以及为学生生成hard examples来生成。我们的工作，虽然也假设没有访问源图像，但与这些工作有很大的不同，因为我们的图像翻译必须描绘转移的知识，而无数据的知识蒸馏只生成满足教师网络的任何图像。

3.3、Image translation

图像翻译以不同的艺术风格呈现相同的内容。一些现有的工作采用基于 GAN 的系统来完成此任务，而其他工作则使用预先训练的特征提取器来进行风格迁移。朱等人在图像翻译循环中采用循环一致性损失来训练 CycleGAN 系统。盖蒂斯等人考虑高级特征图上的内容损失，以及特征图统计上的风格损失以进行风格迁移。Huang 和 Belongie 通过改变实例归一化层中的统计数据提出了一种实时 AdaIN 风格的传输方法。基于 AdaIN，Karras 等人提出 StyleGAN 用于最先进的图像生成。我们的工作与传统图像翻译的不同之处在于，仅使用来自两个域的模型来指导图像更新，而不是来自两个域的图像。

4、Problem Formulation

为了实现我们的目标，即在 UDA 中可视化适应的知识，我们将图像 x 从某个域转换为新图像 x'。我们希望将原始图像输入到其相应的模型（针对该特定领域进行训练）生成图像，并将生成的图像输入到另一个模型来最小化这两个分支之间的输出差异。更新过程仅由源模型fS（·）和目标模型fT（·）指导，并且我们阻止访问来自其他域的图像以避免干扰。我们将可视化适应知识的任务表述为源模型、目标模型和来自特定领域的图像的函数：

相比之下，传统的图像翻译需要访问来自内容和样式两个领域的图像。除了源图像xS和目标图像xT之外，传统的图像翻译还依赖于一定的神经网络d（·）作为判别器。在风格迁移和基于gan的方法中，分别使用ImageNet预训练的VGG和对抗训练的鉴别器网络来代替源模型和目标模型。因此，传统的图像翻译任务可以表述为：

对比Eq. 1和Eq. 2，我们可以看到两者之间明显的差距。传统的图像翻译从两个领域学习图像所表示的风格差异，而我们的目标是学习可视化源模型fS（·）和目标模型fT（·）之间的知识差异。

5、Method

为了研究神经网络在领域适应中学习到什么，我们提出了一种新的方法——无源图像翻译（source-free image translation，SFIT），即从原始目标图像生成源样式图像，以缓解和表示模型之间的知识差异。

5.1、Overview

根据之前的许多UDA工作，我们假设只有源模型中的特征提取器CNN适用于目标域。给定源CNN fS（·）和目标CNN fT（·）共享相同的分类器p（·），我们为SFIT任务训练一个生成器g（·）。由于训练过程是无源的，为了简单起见，我们在下文中将目标图像称为x而不是xT。

如图 2 所示，给定生成的图像 ~x = g (x)，源模型输出特征图 fS (~x) 和共有 C 类的概率分布 p (fS (~x))。为了描述生成图像中的适应知识，除了传统的知识蒸馏损失之外，我们引入了一种新颖的关系保留损失，它保留了目标模型特征图 fT (x) 和源模型特征图fS (~x)之间的相对通道关系。

5.2、Loss Functions

利用知识蒸馏损失LKD和关系保持损失LRP，我们得到了整体损失函数：

5.2.1、Knowledge distillation loss

在本文提出的无源图像翻译方法中，用源模型和生成器组合的fS （g（·））在目标模型fT（·）中描述自适应知识可以看作是知识蒸馏的一个特例，我们的目的是将自适应知识提炼到生成器中。在这种情况下，我们包括生成的图像源模型输出p （fS（~x））和目标图像目标模型输出p （fT (x)）之间的知识蒸馏损失，式中DKL（·，·）表示Kullback-Leibler散度。

5.2.2、Relationship preserving loss

类似的分类输出表明在生成的图像上成功描述了目标模型知识。由于我们假设 UDA 的分类器是固定的，因此在成功的知识蒸馏后，来自目标图像目标 CNN 和生成的图像源 CNN 的全局特征向量应该相似。促进特征图 fT (x) 和 fS (~x) 之间类似的通道关系有助于实现这一目标。给定特征图 fT (x) , fS (~x)，我们首先将它们重塑为特征向量 FS 和 FT，其中 D、H 和 W 分别是特征图深度（通道数）、高度和宽度。

接下来，我们计算它们的通道自相关性，或格拉姆矩阵

其中 GS, GT ∈ RD×D。与其他的知识蒸馏相似性保留损失一样，我们逐行应用 L2 归一化，

其中[i，：]表示矩阵的第i行。最后，我们将关系保持损失定义为归一化Gram矩阵之间的均方误差（MSE）。

其中 ||·||F 表示 Frobenius 范数（矩阵的逐项 L2 范数）。

5.2.3、Discussions

Why transfer target images to the source style

根据Eq. 1中的问题表述，我们应该能够通过从目标图像生成源样式图像或从源图像生成目标样式图像来可视化适应的知识。在本文中，我们选择前一个方向，因为它可以进一步应用于目标模型的微调。

Style transfer with the relationship preserving loss

所提出的关系保持损失可以看作是Gatys等人提出的传统风格损失的一种规范化版本。它计算Gram矩阵之间的MSE。

在所提出的关系保留损失（等式8）中，我们使用逐行归一化版本而不是原始的格拉姆矩阵。它关注渠道之间的相对关系，而不是传统风格损失中的自相关的绝对值。保留相对关系为所有通道提供了更均匀分布的监督，而不是像传统风格损失那样优先考虑多个通道。实验发现这种均匀分布的监督更好地保留了前景对象，并允许更轻松的训练和更高的性能，同时还改变了图像风格（参见第 5.5 节）。

Distribution alignment with the relationship preserving loss

Li等人证明，传统的风格损失Lstyle等价于UDA的MMD损失。我们也可以将关系保持损失看作是MMD损失的修改版本，它将生成的图像源CNN特征图fS（~x）的分布与目标图像目标CNN特征图fT (x)对齐。

6、Experiments

6.1、Datasets

我们在以下数据集上可视化源模型和目标模型之间的知识差异。

Digits是一个标准的UDA基准，专注于10类数字识别。具体来说，我们在MNIST、USPS和SVHN数据集上进行了实验。

Office-31是UDA的标准基准，包含来自三个不同领域的31个类：Amazon (a), Webcam (W)和DSLR (D)。

VisDA是一个具有挑战性的大规模UDA基准，用于从12类合成CAD模型图像到COCO中的真实图像的领域适应。

6.2、Implementation Details

Source and target models

如果没有指定，我们采用 SFDA 最近的工作 SHOT-IM 中的源模型和目标模型。SFDA 是 UDA 的一个特例，看看机器在没有源数据的情况下学习了什么。我们还将UDA方法DAN和ADDA用于SFIT结果的比较。对于网络架构，在Digits数据集上，遵循 Long 等人的观点。我们选择 LeNet分类器。在 Office-31 和 VisDA 上，我们分别选择 ResNet-50 和 ResNet-101。

Generator for SFIT

出于内存问题，我们使用修改后的 CycleGAN 架构，其中包含 3 个残差块。

Training schemes

在训练过程中，我们首先将生成器初始化为透明滤波器，它生成与原始输入相同的图像。为此，我们使用 ID 损失 LID = ||~x − x||1 和内容损失 Lcontent = ||fS (~x) − fS (x)||2 来训练生成器进行初始化。然后，我们用Eq. 3中的整体损失函数来训练生成器，以便将适应的知识可视化。具体来说，我们使用了一个Adam优化器，其余弦衰减学习率从3 × 10−4开始，批大小为16。所有实验都是在一个RTX-2080Ti GPU上完成的。

7、Conclusion

本文研究了UDA中自适应知识可视化的科学问题。具体而言，我们提出了一种无源图像翻译（SFIT）方法，该方法在源和目标模型的指导下，从原始目标图像生成源样式图像。源模型上的翻译图像与目标模型上的目标图像获得了相似的结果，表明成功地描述了适应的知识。这些图像也表现出源风格，风格迁移的程度遵循了UDA方法的性能，这进一步验证了更强的UDA方法可以更好地解决域之间的分布差异。我们表明，生成的图像可以应用于微调目标模型，并可能有助于其他任务，如增量学习。