基于经验风险最小化的领域泛化的实证研究--NIPS2021

文章和附录连接：An Empirical Investigation of Domain Generalization with Empirical Risk Minimizers
文章主要内容：通过计算多种量化泛化的指标去探索针对 ERM 比较好的泛化量化方法，这些方法有 Fisher 信息，熵，雅克比矩阵，mixed

文章目录

摘要
引言
2 相关理论背景
3 实验
- 3.1 DomainBed 基准测试和训练设置
- 3.2 训练经验风险最小化(ERMs)和隐式领域泛化
4 测试基于理论的测量的预测能力
5 探索实证措施
6 相关工作及局限性
7 结论
社会影响

摘要

最近的研究表明，使用经验风险最小化(ERM)训练的深度神经网络可以在分布移位下进行泛化，优于专门的领域泛化训练算法。本文的目的是进一步了解这一现象。特别是，我们研究了Ben-David等人(2007)的开创性的领域适应理论在多大程度上解释了ERM 的表现。也许令人惊讶的是，我们发现这个理论并没有提供一个严密的解释，在三个流行的领域泛化数据集上训练的大量 ERM 模型中观察到的域外泛化。这促使我们研究其他可能的方法——尽管缺乏理论——来解释这种情况下的泛化。我们的研究表明，与 Fisher 信息、预测熵和最大平均差异相关的度量是 ERM 模型分布外泛化的良好预测指标。我们希望我们的工作有助于激励社区更好地理解使用 ERM 训练的深度网络何时泛化分布外。

引言

最近，Gulrajani 和 Lopez-Paz(2020)在 DomainBed 基准上的工作颠覆了领域泛化的传统智慧。在他们的工作中，作者使用仔细的模型选择和评估来表明，使用经验风险最小化(Vapnik, 1999)训练的模型能够在各种流行的基准上实现接近最先进的性能，超过大多数专门用于领域泛化的算法的性能。
在一项平行研究中，人们越来越有兴趣了解使用经验风险最小化训练的深度神经网络何时能在域内很好地泛化。然而，了解经验风险最小化者何时能够推广分布外仍然知之甚少。回答这个问题将帮助我们描述领域泛化算法的故障模式，并开发专门的基线，使我们能够突破经验风险最小化的主导地位。
我们认为分类器的分布外泛化性能主要取决于两个因素。一方面，我们期望只有能够实现良好分布内泛化(也称为源域验证精度)的分类器才能实现良好的分布外泛化。另一方面，相对于感兴趣的函数族，我们期望分布外泛化随着训练数据和测试数据分布之间的差异增加而降低。这揭示了神经网络的属性、所使用的训练数据和神经网络之间的相互作用考虑到所有这些不同的成分，如何为现代的、过度参数化的神经网络建立一个具有强大预测能力的连贯的领域泛化理论?
Ben-David 等人的开创性工作为无监督领域自适应的相关设置奠定了理论基础。特别是 Ben-David 等人的理论将基于固定特征空间的 ERM 的分布外性能上界为两项之和:(i)源域验证精度，(ii)固定特征空间下源域和目标域样例的输入分布之间的距离。该理论在实践中取得了成功，改进了线性模型和深度神经网络在无监督域自适应的设置。从算法上讲，我们可以通过找到一个特征表示来实现这个理论，在这个特征表示下，(i)我们可以在源域输入上表现良好，(ii)不可能区分源域输入和目标域输入。
虽然上述理论涉及无监督域自适应的设置(算法在训练期间可以访问未标记的目标域数据)，但这里我们对相关但不同的域泛化场景感兴趣，其中算法在训练期间只能访问源域数据。因此，为了保持领域泛化设置，我们将从不同的角度使用 Ben-David 等人的理论。我们的方法不是以一种鼓励源域和目标域输入难以区分的方式训练表征，而是只使用源域数据训练大量的ERM 模型，以便稍后研究表现出良好分布外泛化的模型是否确实学习了难以区分源域和目标域输入的特征空间。
使用标准 DomainBed 管道使用经验风险最小化训练超过12,000个深度神经网络图像分类器，我们发现Ben-David等人的理论在预测分类器何时将泛化域外方面的能力有限。我们通过揭示理论中的假设是否被违反或边界是否松弛来进一步研究这一点。我们的研究结果表明，在实践中，虽然理论中的假设在学习到的 ERM 特征空间中基本上没有被违背，但人们可以在能够区分源数据和目标数据的情况下获得良好的泛化，这限制了理论解释领域泛化的实际适用性。我们将在第 4 节中对此现象进行调查并提供更多的直观说明
为了寻找可能指向新理论方法的领域泛化的其他相关因素，我们着手建立一个度量目录，可以预测我们的 ERM 训练的神经网络的分布外泛化性能。在构建这样一个泛化措施目录时，我们从最近的文献中获得灵感，这些文献进行了类似的努力来解释深度神经网络域内泛化的方差。经过详尽的实证评估后，我们发现几个提出的指标是相对较强的预测分布外性能。这些措施包括与预测熵、Mixup标准、雅可比矩阵的范数和 Fisher 信息矩阵相关的措施。
总结起来，我们的工作做出了以下贡献:

我们进行了大规模的实证研究，在DomainBed 领域泛化基准上训练的深度神经网络上测试Ben-David 等人的理论。
我们发现该理论在预测哪些 ERM 将推广到分布之外的能力有限。
我们对解释神经网络领域泛化的其他几个候选度量进行了实证评估，发现度量优于理论激励量。

2 相关理论背景

在领域适应理论方面有丰富的研究，其重点是在面对来自不同输入分布的测试数据时进行学习和适应。还有许多用于领域自适应的算法，这些算法利用未标记的数据来学习更多的不变预测器，这两种算法都适用于经典核机器以及深度神经网络。结果通常根据模型在训练域中的测试误差提供目标域中测试误差的界限，以及特征空间中训练和目标输入分布之间差异的度量。在这里，我们感兴趣的是该理论是否能准确地预测 ERM 的分布外性能。
特别是，我们首先关注 Ben-David 等人的经典结果，该结果给出了固定的特征表示( $\mathcal{R}$ )，根据模型区分源样本和目标样本的程度，得出了测试性能的泛化界限。这项工作的重点是单源( $SS$ )设置，其中使用单个源域进行训练。这项工作的一个中心结果是目标域上的测试误差( $\epsilon_T(h)$ )的边界，由三个不同的术语组成:源域验证误差( $\epsilon_S(h)$ )，所谓的源域和目标域之间的 $\mathcal{H}$ -散度，以及为两个环境优化单个模型时的联合源-目标验证误差，即 $\lambda = min_{h\in \mathcal{H}}\{\epsilon_T(h) + \epsilon_S(h)\}$ 。事实上，在理论中， $\lambda$ 接近性是假设的，我们将在后面测试这个假设。我们在分析中分别考虑这三个项的预测值以及它们的总和。 $\mathcal{H}$ -散度可以理解为与函数族 $\mathcal{H}$ 中分类器的最佳性能相关并近似于此，该函数族 $\mathcal{H}$ 训练用于区分源域和目标域的样本。
随后 Ben-David 等人将这一理论推广到多源( $MS$ )训练中。假设所有训练域的权重相等，目标域和源域的测试误差之间的差距可以用两项的和来限定:平均值，其中 $\lambda_j= min_{h\in \mathcal{H}}\{\epsilon_T(h) + \epsilon_j(h)\}$ ，以及 $\mathcal{H}\Delta \mathcal{H}-divergence$ ，类似于 $\mathcal{H}$ -散度，但适用于对称差分假设类。这些术语的完整描述可以在补充材料中找到。

3 实验

在本节中，我们描述了解决 ERM 的隐式域泛化问题的方法和实验设置。我们首先从 DomainBed 基准的简要概述开始，然后描述我们为了度量泛化而训练的模型集合。

3.1 DomainBed 基准测试和训练设置

DomainBed 是一个最近发布的领域泛化工具箱，它提供了各种领域泛化算法的实现，如不变风险最小化、方差风险外推和基于元学习的领域泛化以及无监督的领域自适应方法。它还提供了各种数据集，如 RotatedMNIST 、VLCS 和 PACS 。这些数据集以多个环境的形式提供，每个环境 $e = \{(X_e^i, y_e^i)\}_{i=1}^N$ ,使用不同的训练分布 $p_e(X)$ 和(通常)相同的条件标签分布 $p (y ∣ X)$ 。然后在源环境 $E_{source}=\{e_{source}^j\}_{j=1}^M$ 的子集上训练域泛化算法，并在目标环境 $E_{target} = \{e_{target}^j\}_{j=1}^K$ 上进行测试.
DomainBed 基准测试的一个有趣的结果是，标准的 ERM 训练可以匹配或优于更专业的领域泛化算法。我们希望通过描述区分表现良好的 ERM (经验风险最小化器)和表现不佳的 ERM 的特性来更好地理解这一现象。我们遵循Gulrajani & Lopez-Paz(2020)将所有训练环境合并到一个源数据集 $\bigcup_{e\in E_{train}}e$ 中，用于训练我们的 ERM。测试在每个目标环境上独立执行。
我们使用与 DomainBed 论文中使用的相同的网络架构(参见补充信息以获得更多细节)。总的来说，我们的网络跨越了具有 386K 参数(在 MNIST 数据集上)的浅卷积神经网络到具有2500万参数(在 VLCS 和 PACS 上)的残差网络。我们优先考虑对上述架构进行仔细的、详尽的超参数扫描，以获得具有不同性能水平的模型，而不是研究不同的架构，这可以说是对这个问题的二阶效应。根据 Gulrajani & Lopez-Paz(2020) 的研究，对于数据集和训练环境的每个组合，我们选择了100个随机超参数设置，包括批大小、学习率、权重衰减和 dropout(对于 resnet 模型)。对于源 S 和目标 T，我们保留50%的数据进行验证。由于没有训练发生在 T上，这意味着我们可以使用 T 中 50% 的数据来计算泛化度量，另外 50% 用于评估经验风险最小化器 $\hat{h}$ 的分布外误差，我们称之为 $\epsilon_T(\hat{h})$ 。类似地，我们将模型在源域上的验证误差表示为 $\epsilon_S(\hat{h})$ 。

3.2 训练经验风险最小化(ERMs)和隐式领域泛化

在这里插入图片描述

使用上述过程，我们使用 PyTorch 在具有 Volta gpu 的计算集群上训练了大约 12,000 个模型。所有模型训练5000步，最后一步保存的模型用于分析。图 2 显示了扫描的结果。我们注意到，源域验证精度或误差 $\epsilon_S(\hat{c})$ 是解释域泛化性能的一个很好的候选者(见图 2)。这是文献中的一种常见做法，其中模型选择通常基于该标准进行。然而，我们注意到，对于给定的源域验证精度，相应的分布外精度存在显着变化，这表明需要更严格地表征泛化的度量。

4 测试基于理论的测量的预测能力

在本节中，我们对第 2 节讨论的理论的各种要素进行实证评估在 DomainBed 基准上通过 ERM 训练的 12,000 个神经网络。
我们检验这一理论的一般方法包括两个主要部分。首先，我们从经验上估计 Ben-David 等人的边界中的紧密性，其次，我们研究理论中的术语是否可以预测性能。如第 2 节所述，给定 $\tilde{D}_S$ (源域上提取的特征集)和 $\tilde{D}_T$ (目标域上提取的特征集)理论根据源误差 $\epsilon_S(c)$ 、 $\mathcal{H}$ -散度( $d_{\mathcal{H}}(\tilde{D}_S, \tilde{D}_T)$ )和域的接近度( $\lambda$ )(两者都在模型的特征空间中计算)提供了目标误差 $\epsilon_T(c)$ 的边界: $\epsilon_T(c)\le \epsilon_S(c)+d_{\mathcal{H}}(\hat{D}_S, \hat{D}_T)+\lambda$ 估计注意事项:为了测试理论在实践中的效果，我们需要从有限样本中估计 $\mathcal{H}$ 和 $\mathcal{H}\Delta \mathcal{H}-divergence$ 。我们在补充材料中构造并经验地研究了两者的估计量方差，发现 $\mathcal{H}\Delta \mathcal{H}-divergence$ 的估计比 $\mathcal{H}-divergence$ 的估计具有更低的信噪比(当 $\mathcal{H}$ 具有有限 vc 维时，已知有收敛保证)。然而，为了完整起见，我们报告了两者的结果。
界限有多宽松?在图3中，我们绘制了每个散度度量和数据集，即eq.(1)中边界的右侧。这揭示了几个有趣的观察结果。首先，当边界的形式为“散度测度 $\lambda + \epsilon_S(\hat{c})$ ” 时(例如，参见 eq.(1)) 是松散的(每个图中的第一个箱形图)(其中松散被定义为 eq.(1) 的右侧和左侧之间的差异)，这并不是因为网络所包含的表示 $\mathcal{R}$ 没有产生 $\lambda$ 接近的域，而是因为源域和目标域之间的分歧很大。因此，原则上，ERM 似乎产生了可以支持学习目标和源领域标签的特征空间。然而，在域泛化设置中，ERM 似乎没有学习隐含地将源域与(看不见的)目标域对齐的特征空间。在无监督域自适应 (uDA) 中，可以强制散度较小(因为uDA假设访问目标域输入 $D_T$ )，这可能导致测试误差的更严格界限，只要域保持 $l amb d a$ 接近。然而，最近的研究表明，强制低散度可以产生不再接近 $l amb d a$ 的表示，从uDA的角度来看，这使得该理论在实践中不太有用。因此，对于泛化来说，低散度似乎既不充分也不必要。
我们的目标不仅仅是了解边界有多紧或多松，而是检查基于它们计算的度量与目标域测试误差的相关性。是什么控制了边界与测试误差 $\epsilon_T(\hat{h})$ 良好相关的制度?更严格的界限是否导致与测试误差的相关性更强?我们发现情况并非如此，例如，在基于 $\mathcal{H}\Delta \mathcal{H}-divergence-MS$ 的边界( $\mathcal{H}\Delta \mathcal{H}-divergence-MS+\lambda+\epsilon_S(\hat{c})$ )的 RotatedMNIST 上(其中差距非常低(图3，右侧黄框)，观察到的推广 $\epsilon_T(\hat{h})$ 的Spearman $\rho$ 为0.422，而在VLCS上为 0.567。因此，不仅仅是上界有多大的偏差，而且方差也可以在预测泛化方面发挥重要作用。
在这里插入图片描述

为什么 $\mathcal{H}-divergence$ 的变化与观察到的泛化没有很好的相关性?我们用一个简单的例子(图4)来说明如何在离源域很远的情况下获得良好的 $\mathcal{H}-divergence$ 泛化。在这种情况下，即使在源域学习到的分类器可以很好地推广到目标域，也可以获得很高的 $\mathcal{H}-divergence$ 。当然，该理论在原则上解释了这一点，因为没有违反目标误差的界限。然而，在实践中，尽管满足了接近度假设，但对于预测泛化并不有用。
这个理论对预测泛化有用吗?为了在更实际的环境中使用边界，我们必须记住，我们无法访问目标域的测试标签，因此无法计算 $\lambda$ -接近度。相反，我们考虑一个界的偏估计，即 $\epsilon_S(\hat{h})+ \mathcal{H}-divergence$ ，以 $\mathcal{H}-divergence$ 为基础的测度作为例证。请注意，人们可以将 $\lambda$ 接近性理解为原始理论中的假设，而不是旨在通过经验计算的东西。因此，在本节中，我们计算实际可访问的理论组成部分，并测量与实际误差的相关性。总的来说，我们发现在不考虑 $\lambda$ 接近度的情况下，Spearman的 $\rho$ 在不同条件下大幅下降。例如，对于基于 $\mathcal{H}\Delta \mathcal{H}-divergence-MS$ 的界，去掉 $\lambda-closed$ 后，具有泛化的Spearman’s $\rho$ 从0.496 下降到 0.136。类似的趋势可以看到， $\mathcal{H}\Delta \mathcal{H}-divergence-SS$ 在将 $\lambda$ 从界中移除后，从 0.509 下降到 0.152, $\mathcal{H}-divergence$ 从 0.215 下降到 0.027。从某种意义上说，这并不奇怪，因为 $\lambda$ 接近度使用目标域标签，这为预测目标域误差提供了重要的信号。然而，这表明该理论在实际应用中不能很好地预测泛化。最后注意到，在这些度量中，通常使用 $\mathcal{H}\Delta \mathcal{H}-divergence-MS$ 或 $\mathcal{H}\Delta \mathcal{H}-divergence-SS$ 比使用 $\mathcal{H}-divergence$ 要好得多。

5 探索实证措施

我们已经看到，在实践中，经典的领域泛化理论并不能成功地提供对分布外泛化( $\epsilon_T(\hat{c})$ )具有强预测性的度量。因此，我们下一步转向探索可能提供更好预测能力的新措施。我们强调，我们在这里的目标不是制定用于实践的高度预测性措施，而是为未来的理论研究指出有希望的方向。
为了实现这些目标，考虑到环境的异质性(见图2)，我们做出了以下方法选择:(1)我们为数据集和环境的每种组合(我们称之为条件)寻求良好的泛化预测因子，并跨条件进行汇总，以找到在不同条件下可靠的度量，(2)我们为每个条件学习单独的回归因子，并在所有条件下学习单个回归因子。在所有情况下，我们对所有分析执行岭回归和留一交叉验证。在所有回归中，我们使用训练，测试分割(0.7, 0.3)。我们使用决定系数 $R^2$ 作为指标，表明回归解释的目标变量方差的分数，并报告预测器在数据集/环境对的所有条件下的平均 $R^2$ 。根据 Jiang 等人(2019)的方法，我们还计算并强调了 Spearman 的等级相关系数(Spearman的 $\rho$ )，以量化每个测量方法预测哪些 ERM 将推广分布外的程度。

5.1 所选措施的说明

在这里，我们描述了量化模型对输入分布变化敏感程度的选择措施。在这里，我们简要地总结了一些我们发现的性能最好的度量方法。在补充信息中可以找到一个完整的列表，包括许多措施的变体。首先，我们简要介绍了基于模型费雪信息的测度及其变化在源环境或目标环境的样本上计算时。然后研究了在源或目标环境样本上计算的模型雅可比矩阵的范数。最后，我们引入了一种基于模型对源样本和目标样本的预测熵的度量。
基于Fisher的测量方法。Fisher信息(Amari, 1998)测量了模型输出对参数变化的敏感性。当影响模型输出的参数方向在训练和测试输入样本上计算相似时，我们期望模型能很好地泛化分布外。设输入样本 $x_n$ 上第 $i$ 类的模型输出为 $h_{\theta,i}(x_n)$ ，其中 $\theta$ 表示模型参数。然后将费雪信息定义为 $\frac{1}{N}A^{\top} A$ ，其中， $A_{\mu, in} =\frac{1}{\sqrt{h_{\theta,i}(x_n)}}\frac{\partial h_{\theta,i}(x_n)}{\partial \theta _{\mu}}$ 。我们基于 Fisher 信息的泛化度量将在源训练数据集 $I_{S_{tr}}$ 上得到的 Fisher 与在目标数据 $I_{\mathcal{T}_{tr}}$ 上得到的 Fisher 进行比较。注意，Fisher 与 Hessian 不同，不需要标记数据，因此可以在未标记的图像上计算。具体操作请参见补充资料。
基于雅可比范数的测度。输入-输出雅可比矩阵是模型输出对输入变化的灵敏度度量，定义为 $J_{I,\alpha}=\frac{\partial h_i(x)}{\partial x_{\alpha}}$ 。直观地说，对输入变化不太敏感的模型将更好地泛化。因此，它已经在鲁棒学习(Hoffman等人，2019)和分布内泛化(Novak等人，2018)的背景下进行了研究，其中发现它可以预测单个测试点水平的泛化。与Novak等人(2018)类似，我们计算雅可比矩阵的 Frobenius 范数。详细信息请参见补充材料。
基于混淆的度量。Mixup (Zhang et al.， 2018)被认为是 ERM 的一种更鲁棒的替代方案，它鼓励学习函数平滑，并且已被证明可以平滑网络的输入输出雅可比矩阵(Carratino et al.， 2020)。这里我们使用 mixup 作为泛化度量，并使用模型的分数函数 $h$ 代替标签 $y$ 进行插值。我们的动机和雅可比矩阵是一样的:如果函数在目标样本周围不那么平滑，那么网络也不应该泛化。给定一个神经网络 $h (X)$ ，一个数据集 $\mathcal{T}$ ，和 $\lambda \sim Beta(\alpha, \alpha)$ ，我们计算 Mixup 测量为: $\frac{1}{|\mathcal{T}|}\sum_{X_i\in \mathcal{T},X_j\in \mathcal{T};i\ne j }(\lambda h(X_i)+(1-\lambda)h(X_j)-h(\lambda X_i+(1-\lambda)X_j))^2$ . 有关计算此度量的详细算法描述，请参阅补充材料。
目标数据的熵。我们还计算了神经网络 $h$ 在目标域数据上的输出熵 $\mathcal{T}_{tr}$ (熵-目标):是类似地定义的，但在源域样本上。 $\frac{1}{|\mathcal{T}_{tr}|\sum _{X_i\in \mathcal{T}_{tr}}}\sum_{j=1}^{\mathcal{Y}}-\rm{log} (h(X_i)[j])\cdot h(X_i)[j]$ 。Entropy-Source 类似地定义，但基于源域样本。

5.2 单一措施的结果

我们为本节中研究的度量提供了一个具有代表性的结果样本，同时请参阅附录，了解我们研究的所有度量的更详细的结果。对于本节，我们首先计算具有目标域误差 $\epsilon_T(\hat{c})$ 的每个度量的Spearman’s $\rho$ ，并从每个相关度量族(例如，与雅可比矩阵相关的度量)中选择具有最高相关性的度量。作为预处理步骤，我们将度量规范化，使其始终与 $\epsilon_T(\hat{c})$ 呈正相关(参见附录以获得更多详细信息)。
哪些测量方法优于基于理论的测量方法 $\mathcal{H}\Delta \mathcal{H}-divergence-SS$ 和 $\mathcal{H}-divergence$ ? 在 Spearman’s $\rho$ 方面，我们发现熵源(0.598)、熵目标(0.734)、雅可比(0.420)、mmd -高斯(0.283)和Fisher Align(0.441)都优于第4节中理论启发的度量，其中表现最好的度量是 $\mathcal{H}\Delta \mathcal{H}-divergence-SS$ , Spearman’s $\rho$ 为0.152。有趣的是，就Spearman的 $\rho$ 而言，熵-目标(0.734)优于域内测试误差 $\epsilon_S(\hat{c})$ ，(0.712)，而使用 $R^2$ 则稍差(0.608 vs . 0.582)。
实际分析熵-目标算法的性能。接下来，我们分析了熵-目标在不同数据集上的性能。我们发现熵-目标在 RotatedMNIST 数据集上优于 $\epsilon_S(\hat{c})$ (0.853 vs . 0.744 Spearman’s $\rho$ )，而在 VLCS 和PACS数据集上 $\epsilon_S(\hat{c})$ 更好，在 VLCS 上为 0.625 vs . 0.557 Spearman’s $\rho$ , 0.732 vs .s。斯皮尔曼在PACS上的 $\rho$ 。图5显示了对这种强劲表现的一个合理解释。考虑一下我们在RotatedMNIST中使用旋转30-75度的环境进行训练的情况(如图1所示)。在这种情况下， $\epsilon_T(\hat{c})$ 无法区分 0 度和 15 度测试环境下的预期性能。
然而，我们在图5中看到，在0度和15度目标环境中计算的不同模型之间的熵分布有很大不同，在15度测试环境中具有更高的置信度，泛化效果更好。
是什么影响了熵源的性能?我们发现在所有模型中，熵源(在源训练集上计算)与 $\epsilon_S(\hat{c})$ 高度相关(例如，在RotatedMNIST上，Spearman的pof为0.857)。这表明，熵源的性能可能是因为它与 $\epsilon_S(\hat{c})$ 的关系。这也潜在地解释了为什么同时使用 $\epsilon_S(\hat{c})$ 和熵源表1与单独使用 $\epsilon_S(\hat{c})$ 具有相同的性能(0.712 Spearman’s $\rho$ )。
跨数据集分割度量的性能。在图 6 中，我们发现对于许多度量，相关性在不同的数据集上具有相同的符号，这是令人鼓舞的，并且表明所提出的度量可能有助于理解泛化。总体而言，我们发现熵源、熵目标、 $\mathcal{H}-divergence$ (train)、Fisher Align、Mixup、 $L^2$ -Path Norm、MMD-Gaussian 在相关性的符号方面是可靠的。然而， $\mathcal{H}-divergence$ (训练)和 $L^2$ -Path Norm 在数据集之间有很高的方差，这是不理想的。
雅可比法和费雪法哪个更好?虽然雅可比矩阵和 Fisher Align 总体上具有相似的Spearman $\rho$ 值(约0.4)，但我们发现雅可比矩阵虽然在不同环境下高性能，在RotatedMNIST上，Spearman的 $\rho$ 值为0.83，在PACS和VLCS上的表现相当差(Spearman的 $\rho$ 值为0)，因此可能不是一个可靠的衡量标准。之前的工作在四个不同的图像数据集(CIFAR10, FashionMNIST, MNIST, CIFAR100)上使用了雅可比矩阵(Novak等人，2018)，并发现它可以预测来自同一分布的单个测试点的泛化水平。然而，我们的结果表明，在分布外的情况下，雅可比矩阵是不可靠的。相比之下，测量Fisher Align在数据集上更加稳定(在VLCS上，Spearman的 $\rho$ 为0.368，在PACS上为0.212，在RotatedMNIST上为0.585)。我们对 Fisher Align 的直觉是，由于 Fisher 的特征向量表示模型在参数空间中最敏感的方向，如果这些方向在目标分布上匹配，则更有可能泛化。

5.3 综合措施效果

在前一小节中，我们单独研究了每一项拟议的措施。接下来，我们研究了将度量与域内测试误差 $\epsilon_S(\hat{c})$ 结合是否可以获得更好的性能。这与限定目标域和源域验证错误之间差距的理论类似。在每种情况下，我们拟合形式为 $\alpha \epsilon_S(\hat{c})+\beta *特征$ 的回归模型来预测 $\epsilon_S(\hat{c})$ ，然后使用预测来计算Spearman的 $\rho$ 。然而，我们也在表 1 中报告了回归的 $R^2$ 。
跨所有环境的联合模型。我们首先跨所有数据集和环境联合执行回归(如第3节所述)(表1，“联合”列)。这并不允许模型在回归量的权重中包含特定的环境，而是坚持在所有环境中使用相同的预测器或“规则”。这允许与我们在前一小节中讨论的实验进行直接比较。我们发现，在这种设置中，只有熵-目标、雅可比矩阵和MMD-Mean-Cov与 $\epsilon_S(\hat{c})$ 结合使用时才能改善Spearman的 $\rho$ (表1)，这表明这些措施可能与 $\epsilon_S(\hat{c})$ 互补。
每个环境的分层模型。接下来，我们允许回归器为每个环境选择一组新的参数。在这种情况下，不可能出现比 $\epsilon_S(\hat{c})$ 更糟糕的情况，因为如果第二个特征确实是最好的解决方案，那么人们总是可以找到一个权重为 0 的解决方案。如预期的那样，表 1 显示，在这种情况下，所有措施都与 $\epsilon_S(\hat{c})$ 一起得到改善。然而，相对于其他措施，研究哪些措施能最大程度地提高 $\epsilon_S(\hat{c})$ 的表现，仍然具有指导意义。我们发现，在这种情况下，mmd -高斯、mmd -均值- cov、Jacobian、Entropy-Target都导致Spearman的 $\rho$ 值大于 0.80，这表明它们是有希望在这种情况下进一步研究的候选人。
L2-Path Norm和Mixup哪个更好?虽然 L2-Path Norm 在单独设置中似乎比Mixup具有更高的Spearman’s $\rho$ (表1)，但 L2-Path Norm 的大部分好处似乎来自于它是分布内一般化的良好预测器。当与 $e_S(c)$ 配对时，即使在分层设置中，我们发现 L2-Path Norm 与 $\epsilon_S(\hat{c})$ 具有相同的性能(0.712 Spearman’s $\rho$ )，而Mixup将 $\epsilon_S(\hat{c})$ 从 0.712 提高到 0.749 Spearman’s $\rho$ 。 $R^2$ 也可以观察到类似的趋势。

6 相关工作及局限性

我们的工作首先是测试关于无监督领域适应的开创性理论，其目的是了解一种方法何时有望推广到与训练领域不同的测试领域。我们对一些边界和理论进行了实证评估，并令人惊讶地发现基于 Fisher 信息和 Jacobian Norm 的较少原则的方法比由领域适应理论启发的边界表现得更好。
与我们目前的工作最相关的是 DomainBed 的工作，该工作观察到，更仔细的实验选择会导致与最先进的领域泛化方法竞争的 ERM。我们的工作旨在了解泛化的ERM 的特征，我们的结果表明输出分布的熵、雅可比矩阵的范数和基于Fisher的度量是未来研究的有希望的候选者。
其他相关工作发现，在减少目标域误差方面，用于最小化域分歧的无监督域自适应理论在实践中并不总是有用的。我们的工作是不同的，因为我们研究的是领域泛化(而不是适应)，其中不能最小化明确的域发散。相应地，我们发现该理论在实践中对预测泛化没有用处，而不是强制它。
我们的方法方法也受到Jiang等人的启发;Neyshabur等人旨在了解过度参数化的深度网络如何能够实现良好的泛化，部分原因是它们具有拟合随机标签的能力。我们从Jiang等人的大规模实证研究中实施了一些表现最好的措施，用于域内设置，并在这项工作之后使用等级相关性作为绩效衡量标准。我们认为，理解隐式正则化在领域泛化设置中的作用也是一项富有成效的智力和实践挑战。
之前的工作研究了使用雅可比范数作为正则化器的域泛化。虽然他们的目标是为监督学习建立一个更健壮的模型，但我们的目标是表征未经任何正则化训练的ERM是否可以显示为隐式学习平滑函数，从而有助于理解隐式域泛化现象。Novak等人表明，雅可比范数可用于预测域内分类的单个测试点水平的泛化。这里我们将他们的实验设置扩展到分布外情况，并证明雅可比矩阵在总体水平上是有用的。Jastrzebski 等人最近研究了 Fisher 信息轨迹的演变在训练过程中的作用及其对域内泛化的影响，并基于这一见解提出了一种正则化器。我们利用Fisher进行域泛化设置。与Jastrzebski等人研究 Fisher 的踪迹相比，我们最好的基于 Fisher 的方法使用特征向量进行训练和测试。
最后，预测出分布泛化与出分布检测有关，但两者有重要区别。在分布外检测中，任务是标记不属于训练期间观察到的任何类的分布外示例，在分布外泛化中，我们假设测试实例总是属于感兴趣的类之一，尽管它们是在测试期间从不同的分布生成的。
局限性:我们的工作是朝着理解用ERM训练的网络何时泛化到新的目标领域迈出的一步。然而，我们的研究是经验性的，这限制了我们结论的普遍性。我们希望这一努力能刺激未来在这个问题的理论方面的工作。虽然我们遵循 Gulrajani 和 Lopez-Paz(2020) 的模型架构来获得大量预训练模型，但除了超参数之外，研究架构的影响也是一个有趣的研究方向。

7 结论

在这项工作中，我们研究了ERM训练的深度神经网络的领域泛化性能。令人惊讶的是，我们发现来自无监督域自适应的自适应理论在预测模型对分布外的泛化程度方面作用有限。我们发现该理论的假设得到了满足，特别是 $\lambda$ 接近性，但该理论的实际可访问组件并不能提供关于哪些模型将推广的强有力预测。为了发现领域泛化的其他相关因素，我们研究了一套新的经验测量方法的性能，找到了一些有希望的候选方法。我们的工作为理解 ERM 的隐式领域泛化特性提供了关键的第一步，并指出了对领域泛化的强预测度量的有希望的未来理论研究。

社会影响

虽然大多数提高机器学习模型性能的工作可以被具有负面社会影响的应用程序所利用，但我们认为本文的结果实际上为机器学习模型在更广泛的社会中的部署迈出了积极的方向。特别地，我们的工作旨在理解没有被训练成对领域转移具有鲁棒性的模型何时会崩溃，或者实际上在新的测试领域上取得成功。在这种情况下，更好地理解和预测模型行为的能力应该有助于构建更值得信赖的机器学习方法，这些方法在部署到新数据时不太可能导致意想不到的后果。我们强调，我们的工作并没有提出一种新的领域泛化算法，而是试图预测何时可以信任先前训练过的模型在新领域中执行。