文章目录
摘要
泛化和不变性是机器学习模型的两个基本属性。泛化捕获模型对未见数据进行分类的能力,而不变性度量模型对转换数据的预测的一致性。现有的研究表明了一种积极的关系:一个泛化良好的模型应该对某些视觉因素是不变的。基于这一定性含义,我们做出了两个贡献。首先,我们引入了有效不变性(EI),这是一种简单合理的模型不变性度量,不依赖于图像标签。给定对测试图像及其转换版本的预测,EI 衡量预测的一致性和置信度。其次,利用 EI 计算的不变性分数,我们进行了大规模的泛化和不变性之间的定量相关性研究,重点是旋转和灰度变换。从以模型为中心的观点来看,我们观察到不同模型的泛化和不变性在分布内和分布外数据集上都表现出很强的线性关系。从以数据集为中心的角度来看,我们发现某个模型的精度和不变性在不同的测试集上呈线性相关。除了这些主要发现外,还讨论了其他次要但有趣的见解。
引言
泛化和不变性是机器学习中两个重要的模型性质。前者表征模型在遇到分布内或分布外(OOD)测试数据时的表现。后者评估模型预测在转换后的测试数据上的一致性。因此,了解这两个属性之间的关系将有利于动态环境下的模型决策分析。
模型不变性对泛化的重要性已经进行了定性探讨。例如,在模型中加入旋转不变性可以提高其分布内(ID)分类精度;平移不变模型对扰动具有鲁棒性。此外,一些工作提供了神经科学的角度来研究不变表征对模式识别的重要性。进一步,理论研究表明,学习不变特征有利于模型泛化。然而,大多数现有研究仅限于少数ID数据集和模型体系结构。因此,在许多其他场景中,如OOD和大规模测试数据集以及其他类型的模型中,兴趣关系仍然是未知的。
在进行定量研究之前,有必要首先对泛化和不变性进行量化。对于前者,我们考虑的深度模型训练得很好,所以我们简单地使用测试集上的精度,就像之前的许多工作一样。相比之下,量化不变性就没有那么简单了。有些作品用测试集变换时的模型精度下降来表示不变性能力。虽然该策略对单个模型很有用,但在比较多个模型的不变性时,其有效性受到限制。其他人则采用一致性,即:模型应该有相同的决策,但这种方法忽略了预测置信度,我们发现这对于描述不变性至关重要(参见第3节的讨论)。
我们对社区有两个贡献。首先,我们提出了一种测量模型不变性的新方法,称为有效不变性(EI),它同时考虑了预测的一致性和置信度。给定一个测试图像及其变换后的对应图像,如果模型预测的类别相同且置信度高,则 EI 值或不变性强度高。否则,如果模型做出不同的类别预测或置信度较低,则 EI 得分较低。我们展示了这个新度量解决了常用度量(例如Jensen-Shannon散度)可能失败的典型情况下的不变性估值。其次,我们进行了广泛的相关性研究,以定量地了解模型泛化与不变性之间的关系。具体来说,我们使用了8个具有不同分布类型的测试集,例如分布内的ImageNet验证集[25]和分布外的带有样式转换的ImageNet- rendition[4]。我们评估了150个ImageNet模型,从传统的卷积神经网络(VGGs[26])到最近的视觉转换器(例如,BEiT[27])。下面我们列出了两个关键的观察结果和示例见解。
- 对于各种模型,在分布内和分布外数据集上,它们的精度和不变性之间存在很强的相关性(第5.1节和5.2节)。这一发现对于无监督模型选择很有用,因为 EI 不需要测试基础真理。
- 在各种分布外数据集上,模型的精度和 El 分数也强烈相关(第6节)。这一观察结果可用于预测分布外数据集上的模型精度,而无需获取基础事实。
- 与数据增强相比,使用更多数据的训练似乎更有效地提高了不变性和泛化(第5.6节)。
2 相关工作
预测泛化差距:以模型为中心的观点。该任务旨在预测机器学习模型在分布内数据上的泛化差距,即训练精度和测试精度之间的差异。大多数现有的工作侧重于开发训练网络参数和训练数据的复杂性度量[28-36],例如持久拓扑[31]和跨层权值的规范积[33]。这些方法,假设训练分布和测试分布是相同的,没有考虑测试分布的特征。此外,他们只研究有限类型的神经网络。相比之下,我们使用各种网络架构对分布内和分布外测试集进行了更全面的研究。我们表明,在我们的定义下,不变性在分布内和分布外测试数据上都是模型泛化能力或准确性的一个强有力的指标。
与我们的工作密切相关的是,最近有两种方法[37,24]基于网络在扰动数据点上的表现来预测ID泛化差距。具体而言,Kashyap等人[37]使用置信度下降来表示不变性,这对于OOD数据下的不变性测量效果较差。Schiff等[24]使用精度下降来衡量不变性,不变性需要测试标签,而 EI 不需要测试标签,在OOD数据下比准确率更合理。此外,在[24]中绘制响应曲线的计算量很大,而我们的方法相对高效。此外,这两项研究的范围有限:它们主要研究 ID 泛化,网络类型较少,缺乏大规模的测试集,而我们的工作要全面得多。
预测泛化差距:以数据集为中心的观点。该任务的总体目标是预测给定模型在各种未标记测试集上的性能[38-43]。许多方法考虑了测试集的统计量来进行准确性预测[38,39,44,40,45],如分布漂移[38],每个测试集的平均Softmax分数[39]。我们提出了一种新的解决方案:利用模型在OOD数据集上的不变性来预测其准确性。我们的新观察结果支持了这一点,即在各种测试集上,某个模型的准确性和不变性之间存在很强的线性相关性。
通过数据增强提高健壮性。数据增强变换训练数据以增加其多样性,这有助于学习更稳健的模型[46-52]。例如,Mixup[53,54]和AutoAugment[48]被证明可以在分布变化情况下提高模型性能[55,51]。
对抗训练[56-58]使用对抗学习的噪声分布来增强训练图像,而不是使用常见的变换。虽然这些工作旨在通过数据增强来提高损坏鲁棒性,但我们使用后者来分析模型不变性(和泛化)。
3 提出的有效不变性(EI)
符号。考虑 K-way 分类任务,我们定义输入空间
X
∈
R
d
\mathcal{X}\in \mathbb{R}^d
X∈Rd 和标签空间
Y
=
{
1
,
…
K
}
\mathcal{Y}=\{1,…K\}
Y={1,…K}。给定从
X
×
Y
\mathcal{X\times Y}
X×Y 上的未知分布
π
\pi
π 中提取的样本
(
x
,
y
)
(x,y)
(x,y),神经网络分类器
f
:
R
d
→
Δ
K
f: \mathbb{R}^d→\Delta _K
f:Rd→ΔK 产生
K
K
K 类上
x
x
x 的概率分布,其中
Δ
K
\Delta _K
ΔK 表示
K
−
1
K - 1
K−1 维单位单纯形。其中,
f
i
(
x
)
f_i(x)
fi(x)表示
f
f
f 产生的
S
o
f
t
m
a
x
Softmax
Softmax 输出向量的第
i
i
i 个元素。则,
y
^
=
a
r
g
m
a
x
i
f
i
(
x
)
\hat{y}= arg max_if_i (x)
y^=argmaxifi(x) 为预测类,
p
^
=
:
m
a
x
i
f
(
x
)
\hat{p}=: max_i f(x)
p^=:maxif(x) 为相关置信度得分。图像变换定义为
T
:
R
d
→
R
d
T: \mathbb{R}^d→\mathbb{R}^d
T:Rd→Rd,则变换后的图像为
x
′
=
T
(
x
)
x^{'}= T(x)
x′=T(x),其预测类为
y
^
t
=
a
r
g
m
a
x
i
f
i
(
x
′
)
\hat{y}_t= arg max_if_i (x^{'})
y^t=argmaxifi(x′),置信分数
p
^
t
=
:
m
a
x
i
f
(
x
′
)
\hat{p}_t=: max_i f(x^{'})
p^t=:maxif(x′)。
现有不变性措施的缺点。一个常见的策略是直接使用两个预测的
S
o
f
t
m
a
x
Softmax
Softmax 向量之间的距离作为不变性度量:距离越小不变性越高,反之亦然。类似度量的例子有
J
e
n
s
e
n
−
S
h
a
n
n
o
n
Jensen-Shannon
Jensen−Shannon 散度(
J
e
n
s
e
n
−
S
h
a
n
n
o
n
d
i
v
e
r
g
e
n
c
e
,
J
S
Jensen-Shannon divergence, JS
Jensen−Shannondivergence,JS)[59,46]、
l
2
l_2
l2 距离[60,61]和
K
u
l
l
b
a
c
k
−
L
e
i
b
l
e
r
Kullback-Leibler
Kullback−Leibler 散度[62,63]。KL散度:测量两个概率分布P,Q之间的相似性,PQ越相似,KL值越小。性质:非负性和不对称性。
D
K
L
(
P
∣
Q
)
=
∑
i
P
(
i
)
l
o
g
P
(
i
)
Q
(
i
)
,
D
K
L
(
P
∣
Q
)
=
∫
−
∞
+
∞
P
(
x
)
l
o
g
P
(
x
)
Q
(
x
)
d
x
D_{KL}(P|Q)=\sum_iP(i)log\frac{P(i)}{Q(i)},D_{KL}(P|Q)=\int_{-\infty}^{+\infty}P(x)log\frac{P(x)}{Q(x)}dx
DKL(P∣Q)=∑iP(i)logQ(i)P(i),DKL(P∣Q)=∫−∞+∞P(x)logQ(x)P(x)dx
JS散度与KL散度类似,是KL散度的变体,同样PQ越相似,JS值越小。性质:值域 [0,1];对称性。
D
J
S
(
P
∣
Q
)
=
1
2
D
K
L
(
P
∣
P
+
Q
2
)
+
1
2
D
K
L
(
Q
∣
P
+
Q
2
)
D_{JS}(P|Q)=\frac{1}{2}D_{KL}(P|\frac{P+Q}{2})+\frac{1}{2}D_{KL}(Q|\frac{P+Q}{2})
DJS(P∣Q)=21DKL(P∣2P+Q)+21DKL(Q∣2P+Q)
然而,它们只利用了两个
S
o
f
t
m
a
x
Softmax
Softmax 向量之间的全局相似性,而没有明确考虑预测类的一致性和置信度。我们以图1中的JS发散为例来说明这个缺点。在(a)和(b)两种预测类都一致的情况下,JS判定分类器
f
f
f in (b)更相似,忽略了(b)的置信度较低。在(d)两种预测类不一致的情况下,JS 仍然给出了较高的不变性(JS 分数较小),这表明错误明显。此外,在文献[46,60,61]中,计算一致性损失时,忽略了(b)和(d)。
EI 的定义。与研究网络单个神经元不变性的神经科学研究不同[13,15,18,19],我们在网络层面测量不变性。具体来说,给定图像及其变换后的样本,具有高不变性的模型应该给出相同的预测类,反之亦然[6,9]。在我们对EI的定义中,我们进一步使用了预测置信度。我们的动机如下。当一个模型对两个图像预测相同的类别时,如果两个预测中的任何一个置信度低,我们不应该认为它是高度不变的,而是给予惩罚。当且仅当模型对预测同一类具有高置信度时,它应该具有高不变性。基于这些考虑,将 El 定义为:
E
I
(
x
,
T
(
x
)
)
=
{
p
^
t
⋅
p
^
,
i
f
y
^
t
=
y
^
0
,
o
t
h
e
r
w
i
s
e
EI(x,T(x))=\left\{ \begin{aligned} \sqrt{\hat{p}_t\cdot \hat{p}}, \quad if \hat{y}_t=\hat{y}\\ 0, \quad otherwise \end{aligned} \right.
EI(x,T(x))={p^t⋅p^,ify^t=y^0,otherwise为了更好地理解 EI 的合理性,我们在图 1 中描述了四个具有代表性的案例。在情况 (a) 和 (b) 中,分类器
f
f
f 对原始图像和转换后的图像给出相同的预测类 (
y
^
=
y
^
t
\hat{y}= \hat{y}_t
y^=y^t)。在 EI 下,分类器
f
f
f 在 (a) 中具有较高的不变性能力,因为它具有较高的置信度得分。在情况 © 中,预测的类别是不同的(
y
^
≠
y
^
t
\hat{y} \neq \hat{y}_t
y^=y^t),而在 (d) 中,预测的置信度很低(并且给出不同的类别),因此我们将两种情况下的不变性定义为 0。
实际应用中EI的计算。给定一个测试图像,我们使用特定的转换。然后,我们根据它们的
S
o
f
t
m
a
x
Softmax
Softmax 向量计算 EI 分数(Eq. 3)。我们通过平均所有测试图像的EI分数来获得模型不变性。在这项工作中,我们主要研究旋转变换和灰度变换。对于前者,为了避免引入伪影的插值,我们只使用三个变换角度(90°,180°,270°)。对于每个旋转角度,我们通过将其与原始数据的预测进行比较来计算总体不变性分数。通过平均三个 El 分数,我们得到了测试集上的旋转不变性。对于灰度变换,我们去掉颜色信息,只保留光强信息。然后,我们比较了灰度预测和原始数据,并计算了每个测试集的总体灰度不变性。
4 实验设置
4.1 要验证的模型
我们考虑了具有不同架构的最新和经典图像分类模型,包括卷积神经网络(例如,标准VGGs [26], ResNets[64]和现代ConvNeXt[65]),视觉变压器(例如,ViTs [66], Swin[67]和BEiT[27])和全mlp架构68,69。
除了不同的架构,我们还涵盖了具有各种训练和正则化策略的模型(例如,学习率调度[70],标签平滑[71]和数据增强[46,47,49,48]),模型维度的缩放策略(宽度,深度和分辨率)[72-74],以及学习方式(监督学习,半监督学习[75]和知识蒸馏[76,77])。TIMM[78]提供的模型共有150个。它们在ImageNet-1k训练集上进行训练或微调[25]。所选模型大致可分为以下三类:
标准神经网络。该类别包括仅在ImageNet训练集上训练的100个模型。这些网络涵盖了从vgg[26]到EfficientNet[73]的各种架构。
半监督学习。我们包括15个以半监督学习方式训练的模型。他们利用YFCC100M[79]或Instagram 900M[80]的大量未标记图像来提高性能。我们使用基于师生范式训练的模型(例如,SSL-ResNet[75]和SSL-ResNet[75])。还包括在未标记的JFT-300M81上使用自训练方法训练的模型。
对更多数据进行预训练。我们使用了另外35个模型,这些模型在比标准ImageNet训练集大得多的数据集上进行了预训练。具体来说,我们考虑了三种预训练方法:a) IG-3.6B上的弱监督预训练(即RegNetY[83]和ResNeXt101-WSL [80]);b)在ImageNet-21K25上进行监督预训练;(
c
c
c)在JFT-300M上进行监督预训练[81](例如,ViT L/16[66])。
4.2 测试集
我们使用分布内(ID)和分布外(OOD)数据集进行相关性研究。具体来说,使用ImageNet验证集(ImageNet- val)作为ID测试集。对于OOD测试集,我们使用7个数据集,每个数据集都有不同于标准ImageNet的分布这里的分布不同是有什么衡量过的吗?
。它们的分布漂移可分为以下五种类型。
数据集再现移位。ImageNet-V2[23]是ImageNet-Val的回收版本。它包含来自不同数据采样策略的三个版本:match - frequency (A), Threshold0.7 (B)和Top-Images ( C )。每个版本有来自1000个类别的10,000张图像。
自然的对抗转变。ImageNet-Adv(ersarial)[85]被ResNet-50对抗性选择进行误分类。它的自然对抗性示例是未经修改的真实世界图像,并且已经证明对其他模型来说很难[85,3]。它有来自200个ImageNet类的7500个样本。
素描的转变。ImageNet-S(ketch)[86]由类似草图的图像组成,并匹配中的ImageNet-Val类别和规模。它包含50,000张图片,并与ImageNet共享相同的1,000个类。
模糊的转变。我们使用的ImageNet-Blur具有[87]提供的最高严重度。该数据集是通过高斯函数模糊ImageNet-Val图像合成的。
风格的转变。ImageNet- r(版本)[4]包含了ImageNet类的各种抽象视觉呈现(例如,艺术、绘画和视频游戏)。ImageNet- r 拥有200个ImageNet类的30,000张图像。
4.3 相关的度量
我们分别使用Pearson相关系数( λ \lambda λ )[88]和Spearman秩相关系数( ρ \rho ρ )[89]来衡量不变性和泛化之间的线性和单调性。两个系数的范围为 [ − 1 , 1 ] [- 1,1] [−1,1]。趋近于 − 1 -1 −1 或趋近于 1 1 1 分别表示有较强的负相关或正相关,趋近于 0 则表示无相关[88]。为了精确地显示相关性,我们使用 logit 轴缩放,将精度范围从 [ 0 , 1 ] [0,1] [0,1] 映射到 [ − ∞ , + ∞ ] [-\infty, +\infty] [−∞,+∞] ,跟随 [3,2]。除非另有说明,相关系数是使用不变性分数和非线性缩放精度数计算的。
5 实验观察
实验是从一个以模型为中心的角度出发的,我们研究了不同模型的准确性和不变性是如何相互关联的,并进行了一系列观察(第5.1节至5.6节)。
5.1 模型旋转不变性与精度的强相关性
在图2中,我们给出了旋转不变性和泛化的相关结果。我们有两个观察结果。首先,我们发现对于不同的模型,它们的旋转 EI 分数与其分类精度呈线性关系。这种相关性适用于 ID 测试和 OOD 测试集、各种体系结构和训练策略。具体地说,相关指标
λ
\lambda
λ 和
ρ
\rho
ρ 都高于0.840. 这表明具有更高精度数值的模型最有可能具有更强的旋转不变性(由 EI 测量),反之亦然。据我们所知,这是对泛化和不变性(对某一因素)之间定量关系的非常早期的观察。
其次,使用更多数据进行训练有利于旋转不变性和泛化。大型数据集包含各种几何变化的图像。当使用大型数据集进行(预)训练时,模型(图 2 中的蓝色和橙色点)适应旋转变化并获得更强的不变性,根据我们的研究,这可能意味着在 ID 和 OOD 测试集上具有更高的泛化精度。
5.2 模型灰度不变性与精度的强相关性
我们现在将重点放在灰度不变性上,并在图 3 中报告相关结果。我们得出以下结论。首先,在150个模型中,EI测量的精度与灰度不变性之间存在很强的线性相关性。具体而言,所有测试集的相关系数
λ
和
ρ
\lambda 和\rho
λ和ρ均大于0.820。其次,我们发现预训练或半监督模型往往比标准模型具有更高的灰度不变性和精度,这再次表明了大型训练集的有用性。第三,有趣的是,ImageNet-R的相关性比ImageNet-Val和ImageNet-V2-A更强(0.940 vs. 0.900 vs. 0.868)。事实上,ImageNet-R在收集过程中存在风格偏移的特点[4],因此对于本测试集来说,不受颜色变化的影响是增强泛化能力的重要属性。
5.3 相关性存在于非常难的测试集上
我们现在研究在非常困难的测试集下的相关性,并使用ImageNet-A和ImageNet-GaussBlur进行测试,其中83个模型的准确率低于20%。我们学习旋转不变性和灰度不变性。在图4中,我们发现四种情况之间存在很强的线性相关性( λ < 0.88 \lambda<0.88 λ<0.88)。排名相关性不太一致,但仍然表明了明显的趋势。此外,大多数标准模型精度较低,而使用更多数据训练的(预)模型往往具有较高的精度和不变性。我们还注意到,标准模型在ImageNet-A和ImageNet-Blur的低精度范围内分布不同,这可能是由于它们在数据集构建过程中引入的数据集偏差[91-93]。
5.4 相关性在CIFAR-10设置下成立
我们对CIFAR-10设置进行了相关性研究。我们收集了90个CIFAR模型,从 LeNet 到 EfficientNet。我们使用ID CIFAR-10测试集和两个OOD测试集。1) CIFAR-10.1[94]是CIFAR-10测试集的再现,但由于数据收集的变化而发生了分布漂移。它包含从TinyImages[95]中采样的2000个测试图像。2) CINIC-10测试集[96]是CIFAR-10的扩展替代方案。它从ImageNet中抽取了9万张图片。
我们在图5中展示了模型泛化和不变性之间的关系。在所有三个测试集上,我们观察到模型精度数字与旋转不变性分数之间存在很强的相关性,其中 λ 和 ρ \lambda 和\rho λ和ρ 都大于0.90。而且,在检验灰度不变性时,仍然存在很强的相关性( λ 和 ρ \lambda 和\rho λ和ρ 均大于0.83)。
5.5 EI给出比JS更强的相关性
在代表性案例中(图1),EI通过明确考虑
S
o
f
t
m
a
x
Softmax
Softmax 一致性和置信度,在度量模型不变性方面比 JS 更有优势。现在我们比较
E
I
EI
EI 和
J
S
JS
JS 测量的不变性分数,以及它们与精度的相关强度,见图6和表1。我们发现 JS 在ID ImageNet-Val测试集上提供了很好的相关性,但在更难的OOD测试集上的相关性要弱得多。正如第3节所讨论的,EI 的优势在于它不仅遵循了不变性的定义,而且集成了置信度来加强它,而JS只是比较了整个 Softmax 向量。事实上,JS 的缺点主要体现在困难测试集上,其中 Softmax 向量通常具有平坦的形状。这就解释了为什么 JS 在OOD测试集上没有给出很强的相关性(参见5.3节EI在非常困难的测试集上的性能)。我们建议读者参阅补充材料,以便与其他措施进行比较。
5.6 比较两种训练方法的泛化和不变性
现有研究报告称,人工(即数据增强)或自然(即更多真实世界数据)使用更多样化的训练数据可以提高模型的不变性[4,46 - 51,97]。在本研究中,我们比较了两种策略的泛化能力和不变性能力。我们使用了14个经过强数据增强训练的ResNet-50模型,如PixMix[52]和AutoAugment[48]。为了进行比较,我们使用了另外3个使用更多训练样本学习不变性的ResNet-50模型:SWSL-ResNet-50、SSL-ResNet-50和ResNet-50- bitm。在图7中,我们观察到,重增强和强增强的模型在ImageNet-Val和ImageNet-R上呈现线性趋势,但在ImageNet-A上偏离。相比之下,使用更多数据训练的模型(预)在三个测试集上遵循线性趋势。与数据增强相比,后者似乎在提高不变性和准确性方面更有效,尤其是在ImageNet-A上。为了深入理解和扩展这一初步观察,我们将在未来对这一具体点进行更全面的实验。
6 模型在OOD测试集上的不变性与泛化的相关性
从以数据集为中心的角度,我们研究了给定模型在不同OOD测试集上的泛化和不变性之间的关系。给定一个模型,我们计算其在ImageNet-C[87]的每个测试集上的精度,并计算其旋转和灰度不变性分数。
我们评估ResNet-152、vit-base -16和DenseNet-121分类器进行相关性研究。如图8所示,在各种数据集上,分类器精度与不变性之间存在很强的相关性( λ > 0.93 , ρ > 0.95 \lambda > 0.93, \rho > 0.95 λ>0.93,ρ>0.95)。结果表明,分类器在具有高EI分数的测试集上往往具有较高的准确性。以上分析表明,利用EI获取模型的分布外误差是可行的。
7 结论
这项工作考虑了机器学习模型的两个关键属性:不变性和泛化。为了研究它们之间的关系,我们首先引入有效不变性(EI)来更合理地度量不变性,然后进行深入全面的相关实验。从以模型为中心的角度来看,我们报告了各种模型的准确率和EI在ID和OOD数据集上都有很强的线性关系,这在许多场景(如大规模测试集、CIFAR-10和非常困难的测试集)上得到了验证。从以数据集为中心的角度来看,我们发现模型的精度和EI在各种OOD数据集上具有很强的线性关系。
限制和潜在的方向。首先,一些具有特殊设计模块的网络可以对某些变换具有高度不变性[7- 9,16,98],例如旋转不变性网络[14,99,17]。这些模型的旋转不变性分数可能与我们的观测结果呈现非常不同的相关性。也就是说,他们的颜色不变性分数可能仍然与这项工作表现出类似的相关性。在未来的工作中,了解这些模型如何偏离其他模型将是很有趣的。其次,我们的ImageNet测试集不包括从不同位置捕获图像的地理变化[4]。最近的研究表明,这种转变也是影响模型精度的关键因素[100]。我们把这个问题留给以后的研究。此外,我们关注分类任务,其中模型由图像级注释监督。在其他计算机视觉任务中,可以使用不同级别的监督来训练模型,例如实例级边界框注释[101]、像素级标签[102]和时间上下文监督[103]。不同的监督类型可能导致对各种因素的不变性能力,这些因素可能表现出不同的相关曲线。最后,在EI的设计中,我们主要研究了四个具有代表性的案例,并解释了一些常用的测量方法(如 JS 和 L2)的局限性。多考虑一些特殊情况是有益的。
潜在的负面社会影响。我们使用公共分类数据集研究基本模型属性,这些数据集可能在某些涉及伦理问题的应用中被滥用。