MixMo: Mixing Multiple Inputs for Multiple Outputs via Deep Subnetworks
Abstract
最近的策略实现了“免费”的集成,方法是在一个基础网络中同时安装不同的子网。训练的主要思想是,每个子网络学习只对同时提供的多个输入进行分类。然而,如何最好地混合这些多种投入的问题迄今尚未被研究。
本文介绍了一种新的多输入多输出深度子网学习框架MixMo。我们的主要动机是用一个更合适的混合机制来代替先前方法中隐藏的次优求和操作。为此,我们从成功的混合样本数据增广中得到启示。我们展示了在特征中二元混合——特别是使用来自CutMix的矩形补丁——通过使子网更强大和更多样化来增强结果。
我们改进了CIFAR-100和Tiny ImageNet数据集上的图像分类技术。我们易于实现的模型明显优于数据增强的深度集成,无需推理和内存开销。当我们以功能运作,并更好地利用大型网络的表现力时,我们开辟了一条新的研究路线,与以往的工作相补充。
1. Introduction
卷积神经网络(cnn)在计算机视觉任务中表现出了出色的性能,尤其是分类。然而,除了其他限制之外,获得可靠的预测仍然具有挑战性。为了在真实场景中增加鲁棒性或赢得Kaggle竞赛,cnn通常会采用两种实用策略:数据增强和集成。
数据增强可以减少过拟合并改善泛化,特别是通过多样化训练样本。传统的图像增强是保留标签的:例如翻转、裁剪。然而,最近的混合样本数据扩充(MSDA)改变了标签:多个输入及其标签按比例混合成,以创建人工样本。开创性的工作Mixup线性插值像素,而Manifold Mixup插值网络中的潜在特征。二值屏蔽MSDAs(如CutMix)已经通过将补丁从一个图像粘贴到另一个图像上来替代插值,实现了多样化的混合样本。
聚合来自多个神经网络的不同预测显著提高了泛化能力,尤其是不确定性估计。从经验上讲,几个小网络的集成通常比一个大网络性能更好。然而,不幸的是,在训练和推理方面,集成在时间和记忆方面都是昂贵的:这往往限制了适用性。
本文提出了一种新的广义多输入多输出框架MixMo。为了解决传统集成中出现的这些开销,我们将
M
≥
2
M \geq 2
M≥2个独立的子网放入一个单一的基础网络中。这是可能的,因为网络只利用其权重的子集。例如,“winning tickets”子网的性能与整个网络类似。而不是修剪不活跃的过滤器,我们寻求充分利用可用的神经单元和过度参数化。
挑战在于防止同质化,并在没有结构差异的情况下加强子网络之间的多样性。因此,我们在训练中同时考虑
M
M
M(输入,标签)对:
(
x
i
,
y
i
)
0
≤
i
<
M
{(x_i,y_i)}_{0 \leq i \lt M}
(xi,yi)0≤i<M.同时处理
M
M
M幅图像,如图1所示,
M
=
2
M = 2
M=2。在混合之前,
M
M
M个输入被
M
M
M个单独的卷积层
c
i
0
≤
i
<
M
{c_i}_{0 \leq i \lt M}
ci0≤i<M编码到一个共享的潜在空间。然后将表示输入到核心网络,核心网络最终分支为
M
M
M个密集层
d
i
0
≤
i
<
M
{d_i}_{0 \leq i \lt M}
di0≤i<M。随着
d
i
d_i
di学习将
y
i
y_i
yi与输入
x
i
x_i
xi进行分类,不同的子网络自然出现。根据推断,同一图像重复了
M
M
M次:通过平均
M
M
M个预测,我们获得了“免费”的集成。
MixMo变体之间的关键分歧点在于多输入混合块。如果合并是一个基本的求和,我们将恢复到MIMO(它首先具有多输入多输出策略)的等价公式。与传统的检测张量相互关系的融合机制相反,我们寻求特征独立性。这使得求和是次优的。
我们的主要直觉很简单:我们将求和视为Mixup的一种平衡和限制性形式,其中
λ
=
1
M
\lambda = \frac{1}{M}
λ=M1。通过类比,我们借鉴了大量的MSDA文献,设计了更合适的混合块。特别地,我们利用二进制掩蔽方法来确保子网络的多样性。我们的框架允许我们创建一个受CutMix启发的新的Cut-MixMo变体,如图1所示:第一个输入的功能补丁被粘贴到第二个输入的功能中。
这种不对称的混合也提出了关于网络特征中的信息流的新问题。我们通过一个新的加权方案来解决多个分类训练任务之间的不平衡问题。相反,MixMo作为一种新的混合增强功能的双重特性对传统MSDA产生了重要的见解。
总之,我们的贡献有三个方面:
- 我们提出了一个通用框架MixMo,它连接了两个成功的领域:混合样本数据增强和多输入多输出集成。
- 我们确定了合适的混合块,以最好地解决子网中的多样性/个体精度权衡:我们易于实现的Cut-MixMo得益于CutMix和ensemble之间的协同作用。
- 我们设计了一个新的权重的损失组件,以适当地利用不对称的输入混合。
我们在CIFAR-10/100和Tiny ImageNet上证明了MixMo具有良好的精度和不确定度估计。具体来说,M = 2的Cut-MixMo在这些标准数据集上达到了最新水平:如图2所示,在(几乎)与单个网络相同的推理成本下,它的性能优于CutMix、MIMO和深度集成。
图1:MixMo概述。我们将 M = 2 M = 2 M=2的输入嵌入到具有卷积层的共享空间中。该框架的关键是后续的混合块。在WRN-28-10的CIFAR -100上,混合补丁优于基本求和:85:40%对83:06% (MIMO)。
图2:主要结果。基于WRN-28- w w w在CIFAR-100数据集上。我们的Cut-MixMo变体(补丁混合和M = 2)通过在宽网络中利用过度参数,超过了CutMix和深度集成(只有一半的参数)。
2. Related Work
2.1. Data augmentation
众所周知,CNN会记住训练数据,并做出过度自信的预测,从而损害了对新测试例子的泛化。数据增强(DA)通过从可用的标记数据创建人工样本来扩大训练数据集的大小。除了轻微的扰动(例如旋转),最近的研究应用了更强的转换。CutOut等随机删除训练图像中的区域。它们阻止模型聚焦于单个像素区域,类似于Dropout或DropBlock等正则化迫使网络利用多个功能。
混合样本数据增强(MSDA)最近扩展了数据分析的概念。从一对标记的样本
{
(
x
i
,
y
i
)
,
(
x
k
,
y
k
)
}
\{(x_i, y_i),(x_k, y_k)\}
{(xi,yi),(xk,yk)},他们创建虚拟样本:
(
m
x
(
x
i
,
x
k
,
λ
)
,
λ
y
i
+
(
1
−
λ
)
y
k
)
(m_x(x_i,x_k,\lambda),\lambda y_i + (1-\lambda)y_k)
(mx(xi,xk,λ),λyi+(1−λ)yk),其中
λ
∼
B
e
t
a
(
α
,
α
)
\lambda \sim Beta(\alpha ,\alpha )
λ∼Beta(α,α)。表明,与线性插值不同的混合目标可能会导致欠拟合和不稳定的学习。实际上,方法主要集中在开发最有效的输入混合
m
x
m_x
mx。在中,
m
x
m_x
mx在像素之间执行简单的线性插值:例如在Mixup,
m
x
(
x
i
,
x
k
,
λ
)
=
λ
x
i
+
(
1
−
λ
)
x
k
m_x(x_i,x_k,\lambda) = \lambda x_i + (1-\lambda)x_k
mx(xi,xk,λ)=λxi+(1−λ)xk。理论上,它在训练分布之外进行正则化,并应用标签平滑。
CutMix从Mixup和CutOut中提取,通过从
x
k
x_k
xk粘贴一个补丁到
x
i
:
m
x
(
x
i
,
x
k
,
λ
)
=
1
m
⨀
x
i
+
(
1
−
1
m
)
⨀
x
k
x_i:m_x(x_i,x_k,\lambda)=1_m \bigodot x_i + (1-1_m) \bigodot x_k
xi:mx(xi,xk,λ)=1m⨀xi+(1−1m)⨀xk,其中
⨀
\bigodot
⨀表示元素方面的产品,
1
m
1_m
1m为二进制掩码,平均值
λ
\lambda
λ。CutMix随机采样正方形,这通常会导致矩形蒙版由于边界效果。这种非线性二值掩蔽通过增加数据集提高了泛化能力:它生成了通常不相交的补丁的新图像。通过任意形状的口罩寻求更多样化的转变:建议从牛斑点口罩[24]到不规则边缘的[33]。由于遮盖歧视性区域可能会导致标签错误分配,试图用成本高昂的显著性热图来缓解这个问题。然而,ResizeMix表明,它们的性能并不比随机选择补丁位置更好。
除了Manifold Mixup,只有少数作品尝试像我们一样混合中间潜伏特征。然而,我们的目标和方法是完全不同的,如后面3.4节所示。简而言之,他们混合深层特征以平滑决策边界,而我们混合浅层特征只是为了让输入保持清晰。
2.2. Ensembling
像一样,我们探索将DA与机器学习的另一种标准技术:集成相结合。为了提高性能,聚合的成员应该既准确又多样化。深度集成(DE)同时训练多个具有不同随机初始化的网络,并向训练数据的不同解释方向收敛。
集成的基本缺点是固有的计算和内存开销,它随成员的数量线性增加。这种瓶颈通常通过牺牲个人性能或复杂的多样性来解决。平均训练过程中几个检查点的预测,即快照集成,不能探索多个局部最优。蒙特卡洛退赛]也是。最近的BatchEnsemble是参数高效的,但仍然需要多次向前传球。通过共享底层的TreeNets。MotherNets在成员之间分享第一个培训阶段。然而,共享降低了多样性。
最近,多输入多输出MIMO实现了几乎“免费”的集成:除了第一卷积层和最后密集层之外的所有层都共享
(
≈
+
1
%
#
p
a
r
a
m
e
t
e
r
s
)
(\thickapprox +1\% \#parameters)
(≈+1%#parameters)。激发了相关的聚合学习,通过来自信息瓶颈的论证来学习简明的表示。其思想是,过度参数化的cnn可以适合多个子网。问题是如何防止同时训练的子网络之间的同质化。包括随机信道重组;依赖于预定义的二进制掩码;在GradAug中,子网络只在一定比例内利用第一个渠道。相反,MIMO不需要子网络之间的结构差异:它们学习构建自己的路径,同时也像在DE中一样不同。
3.MixMo framework
我们首先介绍我们的MixMo策略的主要组成部分,如图3所示:我们通过子网络混合多个输入以获得多个输出。我们突出了结合输入信息的关键混合块,以及基于专用加权方案的训练损失。
我们在这里主要研究
M
=
2
M = 2
M=2的子网络,既为了清晰,也因为它在标准参数化机制中经验表现最好。为了完备性,我们直接推广到
M
>
2
M \gt 2
M>2第3.5节。
3.1. General overview
我们利用 i.i.d 对相关图像/标签
{
x
i
,
y
i
}
i
=
1
∣
D
∣
\{x_i,y_i\}_{i=1}^{\vert D \vert}
{xi,yi}i=1∣D∣的训练分类数据集
D
D
D。我们随机抽样
∣
B
∣
\vert B \vert
∣B∣个样本的一个子集
{
x
i
,
y
i
}
i
∈
B
\{x_i,y_i\}_{i \in B}
{xi,yi}i∈B,我们通过排列
π
\pi
π随机洗牌。我们的培训批次是
{
(
x
i
,
x
j
)
,
(
y
i
,
y
j
)
}
i
∈
B
,
j
=
π
(
i
)
\{(x_i,x_j),(y_i,y_j)\}_{i \in B,j= \pi (i)}
{(xi,xj),(yi,yj)}i∈B,j=π(i)个。损失
L
M
i
x
M
o
\mathcal{L}_{MixMo}
LMixMo在这
∣
B
∣
\vert B \vert
∣B∣个样本上取平均:网络的权值通过反向传播和梯度下降更新。
让我们关注训练示例
{
(
x
0
,
x
1
)
,
(
y
0
,
y
1
)
}
\{ (x_0, x_1),(y_0,y_1) \}
{(x0,x1),(y0,y1)}。在MixMo中,两个输入分别编码(见图1)到两个不同的卷积层(每个有3个输入通道,没有偏差项)的共享潜伏空间:
x
0
x_0
x0通过
c
0
c_0
c0,
x
1
x_1
x1通过
c
1
c_1
c1。为了恢复一个严格等价于MIMO[34]的公式,我们简单地将两个编码相加:
c
0
(
x
0
)
+
c
1
(
x
1
)
c_0(x_0)+c_1(x_1)
c0(x0)+c1(x1)。实际上,MIMO通过信道级联在像素上合并输入:MIMO的第一个卷积层(有6个输入通道和没有偏差项)隐藏了输出通道中的求和操作。
显式突出显示底层混合导致我们考虑一个广义多输入混合块
M
\mathcal{M}
M。这种多重混合提供了一个独特的机会来解决集成多样性/个体精度权衡,并提高整体集成结果(见第3.2节)。共享表示
M
(
c
0
(
x
0
)
,
c
1
(
x
1
)
)
\mathcal{M}(c_0(x_0),c_1(x_1))
M(c0(x0),c1(x1))提供下一个卷积层。我们注意到
κ
\kappa
κ输入之间的混合比例。
核心网络
C
\mathcal{C}
C同时处理代表两种输入的特征。稠密层
d
0
d_0
d0预测
y
0
^
=
d
0
[
C
(
M
{
c
0
(
x
0
)
,
c
1
(
x
1
)
}
)
]
\hat{y_0}=d_0[\mathcal{C}(\mathcal{M}\{c_0(x_0),c_1(x_1)\})]
y0^=d0[C(M{c0(x0),c1(x1)})]并锁定
y
0
y_0
y0,
d
1
d_1
d1锁定
y
1
y_1
y1。因此,当
κ
≠
0.5
\kappa \neq 0.5
κ=0.5时,训练损失为两个交叉熵
L
C
E
\mathcal{L}_{CE}
LCE的参数化函数
w
r
w_r
wr(定义在3.3节)加权之和,以平衡不对称:
L
MixMo
=
w
r
(
κ
)
L
C
E
(
y
0
,
y
^
0
)
+
w
r
(
1
−
κ
)
L
C
E
(
y
1
,
y
^
1
)
\mathcal{L}_{\text {MixMo }}=w_{r}(\kappa) \mathcal{L}_{\mathrm{CE}}\left(y_{0}, \hat{y}_{0}\right)+w_{r}(1-\kappa) \mathcal{L}_{\mathrm{CE}}\left(y_{1}, \hat{y}_{1}\right)
LMixMo =wr(κ)LCE(y0,y^0)+wr(1−κ)LCE(y1,y^1)
在推断时,相同的输入
x
x
x重复两次:向核心网络
C
\mathcal{C}
C输入和
c
0
(
x
)
+
c
1
(
x
)
c_0(x)+c_1(x)
c0(x)+c1(x),以最大限度地保留来自两种编码的信息。然后,将不同的预测取平均值:
1
2
(
y
^
0
+
y
^
1
)
\frac{1}{2}(\hat{y}_{0}+\hat{y}_{1})
21(y^0+y^1)。这使得我们可以从一次向前传球中受益。
3.2. Mixing block M \mathcal{M} M
混合块是MixMo的基石,它将两个输入组合成一个共享表示。我们的主要直觉是分析MIMO作为一个简化的Mixup变量,其中混合比
κ
\kappa
κ固定为0:5。受MSDA混合方法的启发,MixMo通用框架包含了更广泛的变体。我们的第一个主要变体线性mixmo完全扩展了Mixup。混合块为
M
Linear-MixMo
(
l
0
,
l
1
)
=
2
[
κ
l
0
+
(
1
−
κ
)
l
1
]
\mathcal{M}_{\text {Linear-MixMo }}\left(l_{0}, l_{1}\right)=2\left[\kappa l_{0}+(1-\kappa) l_{1}\right]
MLinear-MixMo (l0,l1)=2[κl0+(1−κ)l1],其中
l
0
=
c
0
(
x
0
)
,
l
1
=
c
1
(
x
1
)
l_0=c_0(x_0),l_1=c_1(x_1)
l0=c0(x0),l1=c1(x1)和
κ
∼
B
e
t
a
(
α
,
α
)
\kappa \thicksim Beta(\alpha,\alpha)
κ∼Beta(α,α)带有浓度参数。第二种也是更有效的变体Cut-MixMo适应了来自CutMix的补丁混合:
M
Cut-MixMo
(
l
0
,
l
1
)
=
2
[
1
M
⨀
l
0
+
(
1
−
1
M
)
⨀
l
1
]
\mathcal{M}_{\text {Cut-MixMo }}\left(l_{0}, l_{1}\right)=2\left[1_{\mathcal{M}} \bigodot l_{0}+(1-1_{\mathcal{M}}) \bigodot l_{1}\right]
MCut-MixMo (l0,l1)=2[1M⨀l0+(1−1M)⨀l1]
其中
1
M
1_\mathcal{M}
1M是一个面积比
κ
∈
B
e
t
a
(
α
,
α
)
\kappa \in Beta(\alpha,\alpha)
κ∈Beta(α,α)的二进制掩码,在矩形上或矩形的互补处值为1。简而言之,一个从
c
0
(
x
0
)
c_0(x_0)
c0(x0)的补丁被粘贴到
c
1
(
x
1
)
c_1(x_1)
c1(x1),反之亦然。如第4.3.2节所示,Cut- MixMo比其他策略表现更好。具体来说,Cut-MixMo中的二进制混频取代了MIMO和linear - mixmo中的线性插值,使子网络更加精确和多样化。
首先,基于CutMix优于Mixup的相同原因,
M
\mathcal{M}
M中的二进制混合训练了更强的单个子网。简而言之,线性MSDAs产生的噪声样本[8]导致鲁棒表示。由于MixMo倾向于在非重叠通道上分布不同的输入(如稍后在图4a中讨论的),这种正则化在
M
Linear-MixMo
\mathcal{M}_{\text {Linear-MixMo }}
MLinear-MixMo 中几乎不再发生。相反,通过掩蔽特征,我们模拟了常见的物体遮挡问题。这将子网络的焦点分散到不同的位置:两个分类器被迫在不相交的位置找到与它们分配的输入相关的信息。当第一个浅潜空间的接受区仍然很小时,这种闭塞仍然有效。
其次,线性插值从根本上不适合诱导多样性,因为两个输入都保留了完整的信息。另一方面,CutMix通过呈现通常不会一起出现的图像补丁,明确地增加了数据集的多样性。这些好处可以直接转化为
M
Cut-MixMo
\mathcal{M}_{\text {Cut-MixMo }}
MCut-MixMo :带有补丁的二进制混合增加了子网之间的随机性和多样性。实际上,在类似于套袋[6]的精神下,给子网提供了不同的示例。通过从两个输入中删除不对称的互补位置,子网络将不再依赖于相同的区域和信息。总的来说,他们不太可能在接近的解决方案上崩溃。
3.3. Loss weighting w r \mathcal{w_{r}} wr
混合机制中的不对称可能导致一种输入盖过另一种输入。特别是当
κ
≠
0.5
\kappa \neq 0.5
κ=0.5时,主要输入可能更容易预测。我们寻求一个加权函数
w
r
w_r
wr来平衡两个
L
C
E
\mathcal{L}_{CE}
LCE,
L
M
i
x
M
o
\mathcal{L}_{MixMo}
LMixMo的相对重要性。这种加权调整了有效学习率、梯度在网络中的流动方式以及混合信息在特征中表示的方式。在本文中,我们提出通过参数化的权重:
w
r
(
κ
)
=
2
κ
1
/
r
κ
1
/
r
+
(
1
−
κ
)
1
/
r
w_{r}(\kappa)=2 \frac{\kappa^{1 / r}}{\kappa^{1 / r}+(1-\kappa)^{1 / r}}
wr(κ)=2κ1/r+(1−κ)1/rκ1/r
这定义了一组由参数
r
r
r索引的函数,图3中
r
=
3
r=3
r=3用红色表示。参见附录6.1了解补充可视化。这个幂律提供了两种极端构型之间的自然松弛。第一个极值
r
=
1
,
w
1
(
κ
)
=
2
κ
r=1,w_1(\kappa)=2\kappa
r=1,w1(κ)=2κ,符合MSDA中的线性标签插值。每个子网络对
L
M
i
x
M
o
\mathcal{L}_{MixMo}
LMixMo贡献的不平衡导致了不平衡的更新。虽然它促进了多样性,但也减少了正规化:被遮蔽的投入对损失的影响较小。相反的极端,
r
→
∞
,
w
∞
(
κ
)
→
1
r \rightarrow \infty,\mathcal{w}_\infty(\kappa)\rightarrow 1
r→∞,w∞(κ)→1,删除重加权。因此,
w
r
w_r
wr夸大了硬的低代表性输入的重要性,à la Focal Loss。然而,最大限度地减少主要投入的作用会破坏培训的稳定。总的来说,我们从经验上观察到,适度的
r
r
r值在权衡两个极端的利弊时表现最好。
有趣的是,损失成分的适当权重也是多任务学习的中心主题。虽然MixMo的目标是从一个共享输入预测多个任务,但它从几个不同的输入预测一个共享任务。除了这种倒置的结构,我们还有类似的问题:例如,一个任务的梯度可能对另一个冲突的任务有害。幸运的是,MixMo提供了一个优势:每个任务的确切比率
κ
\kappa
κ和
1
−
κ
1-\kappa
1−κ是已知的。
图3:MixMo学习组件。混合的不对称性影响训练损失的平衡。
3.4. From manifold mixing to MixMo
我们已经详细讨论了如何通过借鉴MSDA的混合协议来扩展多输入多输出框架。现在我们反过来指出MixMo是如何偏离MSDA方案的。乍一看,这个想法和流形混合是一样的:
M
=
2
M = 2
M=2个输入被编码到一个潜在空间中,在被输入到网络的其他部分之前进行混合。然而,当它们在不同深度混合时,我们只在最浅的空间中混合。具体来说,我们只混合特征-而不是像素-以允许单独的输入编码:它们需要在混合表示中保持不同,以便后续分类器。
因此我们有两个关键的区别:首先,MixMo使用两个独立的编码器(每个输入一个),其次,它输出两个预测而不是一个。实际上,MSDAs使用一个单一的分类器,该分类器针对一个唯一的软标签,通过线性插值反映不同的类。相反,MixMo选择充分利用混合样本的复合特性,训练分离的密集层,
d
0
d_0
d0和
d
1
d_1
d1,在测试时“免费”集成。
第4.3.5节演示了MixMo的工作原理,因为它也使用了两种不同的编码器
c
0
c_0
c0和
c
1
c_1
c1。虽然在MSDA中训练两个分类器似乎很简单,但它实际上提出了一个令人不安的问题:每个分类器应该预测哪个输入?有两个编码器提供了一个简单的解决方案:网络被分成两个子网,每个子网对应一个输入。它们的可分性很容易观察到:图4a显示了两个编码器(CIFAR-100上的WRN-28-10)的16个滤波器的
L
1
L_1
L1范数。每个滤波器范数在两个编码器中只有一个远非零:
c
0
(
x
0
)
c_0(x_0)
c0(x0)和
c
1
(
x
1
)
c_1(x_1)
c1(x1)在混合空间中没有太多重叠,可以被后面的层不同地处理。
这导致MixMo使用大多数可用的过滤器。根据结构化修剪文献[55],我们在图4b中认为,如果一个滤波器(在核心网络的一层)的
L
1
L_1
L1范数至少是其层最活跃滤波器的
L
1
L_1
L1范数的40%,则该滤波器是有活动的(见附录6.2)。这个主动过滤器的比例随着宽度w而降低:香草和CutMix网络没有充分使用额外的参数。相比之下,MixMo更好地利用了过度参数化,这要归功于它的两个编码器,分类器和子网。
图4:MixMo对网络利用率的影响。(a)编码器有单独的通道:两个随后的分类器可以区分两个输入。(b)在更广的网络中,更少的过滤器是强烈活跃的 ( ∥ f i ∥ 1 ≥ 0.4 × max f ∈ layer ∥ f ∥ 1 ) \left(\left\|f_{i}\right\|_{1} \geq 0.4 \times \max _{f \in \text { layer }}\|f\|_{1}\right) (∥fi∥1≥0.4×maxf∈ layer ∥f∥1): Cut-MixMo降低了这个负点。
3.5. Generalization to M ≥ 2 M \geq 2 M≥2 subnetworks
通过使用来自狄利克雷分布的 { κ } ∼ D i r ( α ) \{\kappa\} \sim Dir(\alpha) {κ}∼Dir(α)来优化 L MixMo = ∑ 0 ≤ i < M M κ i 1 / r ∑ j κ j 1 / r L C E ( y i , y ^ i ) \mathcal{L}_{\text {MixMo }}=\sum_{0 \leq i<M} M \frac{\kappa_{i}^{1 / r}}{\sum_{j} \kappa_{j}^{1 / r}} \mathcal{L}_{\mathrm{CE}}\left(y_{i}, \hat{y}_{i}\right) LMixMo =∑0≤i<MM∑jκj1/rκi1/rLCE(yi,y^i),可以很容易地扩展大多数框架(参见附录6.3)。关键的变化是mnow需要处理两个以上的输入: { c i ( x i ) } 0 ≤ i < M \{c_i(x_i)\}_{0 \leq i<M} {ci(xi)}0≤i<M。虽然线性插值很容易推广,但Cut-MixMo有几个可能的扩展:在我们的实验中,我们首先在 M − 1 M -1 M−1输入之间进行线性插值,然后从 M − t h M-th M−th开始在一个区域内进行补片。
4.Experiments
我们在标准的图像分类数据集:CIFAR-{10,100}和Tiny ImageNet上评估MixMo的效率。我们同样跟踪精度(Top{1,5}, ↑ \uparrow ↑)和校准的负对数似然( N L L c NLL_c NLLc, ↓ \downarrow ↓)。事实上,表明,我们应该比较温度缩放(TS)后的域内不确定性估计:因此,我们将测试集分成两部分,并校准(在整体平均后)在另一半的温度上进行优化,如。尽管如此,我们在附录6.5中报告了NLL(不含TS)以及预期校准误差。
4.1. Implementation details
我们主要研究
M
=
2
M=2
M=2的Linear-MixMo和Cut-MixMo变异。我们设置超参数
r
=
3
r=3
r=3(见4.3.3节)。
α
=
2
\alpha=2
α=2的性能优于1(参见附录6.8)。相比之下,MIMO[34]是线性求和,像线性mixmo,但是使用
κ
=
0.5
\kappa=0.5
κ=0.5而不是
κ
∼
B
e
t
a
(
α
,
α
)
\kappa \sim Beta(\alpha, \alpha)
κ∼Beta(α,α)。
不同的混合方法会产生很强的列车试验分布间隙。因此,在Cut-MixMo中,我们实际上用概率为
1
−
p
1 - p
1−p的
M
Linear-MixMo
\mathcal{M}_{\text {Linear-MixMo }}
MLinear-MixMo 替换了
M
Cut-MixMo
\mathcal{M}_{\text {Cut-MixMo }}
MCut-MixMo ,以适应
M
\mathcal{M}
M的求和推断。我们将训练期间的patch混合概率设置为
p
=
0.5
p=0.5
p=0.5,在最后十二分之一的训练周期内线性下降到0(参见附录中的伪代码1)。
当MixMo与CutMix在像素上结合时,输入可能是:
(
m
x
(
x
i
,
x
k
,
λ
)
,
m
x
(
x
j
,
x
k
′
,
λ
′
)
)
(m_x(x_i,x_k,\lambda),m_x(x_j,x_{k'},\lambda'))
(mx(xi,xk,λ),mx(xj,xk′,λ′))的插值目标
(
λ
y
i
+
(
1
−
λ
)
y
k
,
λ
′
y
j
+
(
1
−
λ
′
)
)
(\lambda y_i+(1-\lambda)y_k,\lambda'y_j+(1-\lambda'))
(λyi+(1−λ)yk,λ′yj+(1−λ′)),其中
k
,
k
′
k,k'
k,k′随机抽样,
λ
,
λ
′
∼
B
e
t
a
(
1
)
\lambda,\lambda' \sim Beta(1)
λ,λ′∼Beta(1)。
MIMO通过批重复重复样本
b
b
b次:如果
b
=
2
b=2
b=2,
x
i
x_i
xi将与同一批中的
x
π
(
i
)
x_{\pi(i)}
xπ(i)和
x
π
′
(
i
)
x_{\pi'(i)}
xπ′(i)关联。当批大小保持不变时,每个批的唯一样本数量和学习率除以
b
b
b。相反,步数乘以
b
b
b。总的来说,这稳定了训练,但将其代价乘以
b
b
b。因此,我们表示一个估计的(训练/推理)开销。香草训练)在我们的表的时间列中。注意,一些并行方法也延长了训练:例如GradAug[100]通过多个子网络预测
(
≈
×
3
)
(\approx × 3)
(≈×3)。
我们在附录6.4中提供了更多细节,并将开放我们的PyTorch[89]实现的源代码。
4.2. Main results on CIFAR100 and CIFAR10
表1报道了我们在CIFAR上使用WRN-28-10进行的主要实验的平均得分超过3次。我们重用了MIMO中给出的超参数。Cut-MixMo达到(85:40% Top1,0:535
N
L
L
c
NLL_c
NLLc)与b=4:它超过我们的线性- mixmo(83:08%,0:656)和MIMO(83:06%,0:661)。当结合CutMix(85:77%,0:524)时,Cut-MixMo设置了一个新的艺术状态。当
b
=
2
b=2
b=2: Cut-MixMo(84:38%,0:563)证明其本身比传统的DE和以前的MSDAs如Puzzle-Mix或CutMix更好时,结果仍然强劲。在ciremote -10上,我们观察到类似的趋势:在
N
L
L
c
NLL_c
NLLc上,Cut-MixMo达到0:081,在CutMix上达到0:079。然而,更昂贵的批量增强Mixup BA边缘它在Top1。
图5显示了WRN-28-
w
w
w中,随着宽度
w
w
w的增加,MixMo比DE(绿色曲线)变得更强。参数化在
w
=
4
w = 4
w=4时变得合适:Cut-MixMo(黄色曲线),然后用图5a中的一半参数匹配DE -,其子网络匹配图5b中的香草网络。除此之外,MixMo更好地使用了过度参数化:Cut-MixMo+CutMix超越了DE+CutMix在
N
L
L
c
NLL_c
NLLc的
w
≥
5
w \geq 5
w≥5,这是真实的在Top1的
w
≥
10
w \geq 10
w≥10。与我们强大的线性mixmo +CutMix(紫色曲线)相比,Cut-MixMo在Top1中表现类似,而在
w
≥
4
w \geq 4
w≥4中的CutMix表现更好。Linear-MixMo和DE从遮挡中学习,Cut-MixMo也从CutMix中受益,特别是从诱导标签平滑中受益。总的来说,即使没有CutMix, Cut-MixMo也能更好地估计不确定性。
参数(规格/ # params)效率。CIFAR-100与WRN-28-w, b=4。比较(a)整体和他们的(b)个别对应。
4.3. MixMo analysis on CIFAR100 w/ WRN2810
4.3.1. Training time
我们刚刚看到,CutMix在不同宽度
w
w
w上改善了线性mixmo,但还不足以匹配
N
L
L
c
NLL_c
NLLc中的Cut-MixMo: CutMix不能完全弥补补丁混合相对于线性插值的优势。我们在图6中恢复了这一发现,这次是在不同批次重复
b
∈
{
1
,
2
,
4
}
b \in \{1,2,4\}
b∈{1,2,4}当
w
=
10
w = 10
w=10。而且,在相同的训练时间内,Cut-MixMo的表现优于DE。的确,用给定
b
b
b训练的MixMo变体与DE的训练时间与
N
=
b
N=b
N=b网络相匹配。在本节的其余部分中,我们设置
b
=
2
b=2
b=2。
图6: N L L c ( ↓ ) NLL_c(\downarrow) NLLc(↓)通过更长的训练,通过批量重复(MixMo)或额外的网络(DE)得到改善。
4.3.2. The mixing block M \mathcal{M} M
表2比较了几种混合块的性能。无论形状如何(见附录6.7),二元掩模的性能都优于线性混合:牛斑掩模(84.17%,0.561)表现尤为明显。基本的CutMix补丁(84:38%,0:563)更准确,是我们的主要关注点。
我们通过集成多样性/个体精度权衡的透镜进一步研究了斑块混合的影响。正如在中所述,我们通过两两比率误差
(
d
r
e
,
↑
)
(d_{re},\uparrow)
(dre,↑)来衡量多样性,它定义为两个预测器的不同错误数和同时错误数之间的比率。在图7和图8中,我们平均了过去10个时期的指标。
如3.2节所述,与图7中的线性混合相比,斑块混合增加了多样性。随着斑块混合概率p的增长,多样性也在增长:从
d
r
e
(
p
=
0.0
)
≈
0.78
d_{re}(p=0.0) \approx 0.78
dre(p=0.0)≈0.78 (Linear-MixMo)到
d
r
e
(
p
=
0.5
)
≈
0.85
d_{re}(p=0.5) \approx 0.85
dre(p=0.5)≈0.85(Cut-MixMo)。我们在附录6.6中提供了相关的培训动态。相反,在相同的设置下,DE有
d
r
e
≈
0.76
d_{re} \approx 0.76
dre≈0.76,而MIMO有
d
r
e
≈
0.77
d_{re} \approx 0.77
dre≈0.77。将
p
p
p增加到0.6以上,以降低子网络的准确性为代价,进一步提高了多样性:这是由于拟合不足和测试列车分布差距增大造成的。
p
∈
[
0.5
,
0.6
]
p \in [0.5,0.6]
p∈[0.5,0.6]因此是最好的权衡。
图7:多样性/准确性作为 p p p的函数, r = 3 r=3 r=3。
4.3.3. Weighting function w r \mathcal{w_{r}} wr
我们分析了参数
r
r
r对加权函数
w
r
w_r
wr的影响。较高的值往往会消除重加权,如附录6.1所示:它们强烈地降低了图8中的多样性。
r
=
1
r=1
r=1的另一个极端通过不平衡的梯度更新增加了多样性,但它降低了精度。我们推测它低估了硬样本的重要性。范围
r
∈
[
3
,
6
]
r \in [3,6]
r∈[3,6]取得了良好的平衡:结果保持高而稳定。
图8:多样性/准确性作为 r r r的函数, p = 0.5 p=0.5 p=0.5.
4.3.4. Generalization to M ≥ 2 M \geq 2 M≥2 subnetworks
我们试图将MixMo推广到图9中
M
=
2
M = 2
M=2以上的子网络。当
M
=
2
M=2
M=2时,Cut-MixMo的子网表现为82:3%,而当
M
=
3
M=3
M=3时为79:5%。在MIMO中,是79:8% vs. 77:7%。由于子网络不共享特征,较高的
M
M
M降低了它们的结果:只有两个子网络可以无缝匹配。尽管有额外的预测,集合Top1总体仍在下降,正如在MIMO中已经注意到的。
这反映了MixMo在过度参数化的情况下的优势,但也反映了它在子网不适应时参数较少的局限性(回想之前的图5)。面对类似的发现,MIMO[34]引入了输入重复,以大幅降低多样性为代价,使子网共享它们的特性。我们的泛化可能会被未来的方法所扩展,这些方法的混合块(可能不是受到MSDA的启发)将处理这些问题。
M ≥ 2 M \geq 2 M≥2的集合/个人精度。
4.3.5. Multiple encoders and classifiers
在3.4节中,我们比较了MixMo和MSDA。表3确认需要2个编码器和2个分类器。使用1个分类器和线性插值标签(与[10]的精神相同),2个编码器的性能比1个编码器差。如果有一个共享编码器和两个分类器,则不清楚每个分类器应该针对哪个输入。在第一个朴素的
⊖
\ominus
⊖中,我们随机地将2个分类器和2个输入(用相同的编码器编码)关联起来。这个
⊖
\ominus
⊖变量的结果很差。在
⊗
\otimes
⊗中,第一个分类器尝试从主要输入预测标签,第二个分类器瞄准其他输入:对于Cut-MixMo,
⊗
\otimes
⊗达到0:598 vs. 0:563。
4.4. Robustness to image corruptions
当面对不熟悉的样本时,深度网络的结果会降低。为了测量对训练测试分布间隙的鲁棒性,损坏的CIFAR-100测试图像进入CIFAR-100-c(更多细节见附录6.4)。正如在Puzzle-Mix[46]中一样,我们报告了WRN-28-10在使用或不使用AugMix时的结果,AugMix是一种专为这项任务引入的像素数据增强技术。由表4可知,Cut-MixMo (b=4)与AugMix最优互补,Top1达到71:1%。
4.5. Pushing MixMo further: Tiny ImageNet
在更大的规模和更多样的
64
×
64
64×64
64×64图像,Cut-MixMo在Tiny ImageNet上达到了70.24%的新水平,在Tab. 5。我们重新使用了之前的Puzzle-Mix中给出的超参数。在
w
=
1
w=1
w=1时,PreActResNet-18没有充分参数化,MixMo的优势无法在这个具有挑战性的数据集上表达自己。MixMo的最大潜力在于更广泛的网络:在
w
=
2
w=2
w=2和44.9M参数的情况下,Cut-MixMo达到了(69.13%,1.28),而CutMix则达到了(67.76%,1.33)。与具有3个网络的DE相比,Cut-MixMo在
w
∈
{
1
,
2
,
3
}
w \in \{1,2,3\}
w∈{1,2,3}时的性能{更差,相似,更好}。在(几乎)相同数量的参数下,当w=2时,Cut-MixMo的性能(69.13%,1.28)优于当w=1时(67.51%,1.31)使用4个网络时的DE。
4.6. Ensemble of MixMo
由于MixMo添加了很少的参数
(
≈
+
1
%
)
(\approx +1\%)
(≈+1%),我们可以像在DE中那样结合独立训练的MixMo。图10比较了在CIFAR-100上普通网络和Cut-MixMo的集成。我们首先恢复内存分裂优势(MSA):在类似的参数计数,
N
=
5
N=5
N=5香草WRN-28-3比单一香草WRN-28-7做得更好(+0.10在
N
L
L
c
NLL_c
NLLc)。Cut-MixMo挑战了MSA:我们在使用一个网络或几个更小的网络(-0.04在相同的设置)之间架起了桥梁。从视觉上看,Cut-MixMo的曲线仍然更接近于下限:性能更少地依赖于如何分配内存预算。这是因为Cut-MixMo通过更好地利用它们的参数,主要对较大的架构有效。
图10:WRN-28-w中不同宽度 w w w和成员数量的集合效果( N L L c NLL_c NLLc/#params)。通过幂律插值曲线。
我们还恢复了广泛的普通网络趋向于更少的多样性,因此从集成:
N
=
2
N=2
N=2香草WRN-28-14 (83.47% Top1,0.656
N
L
L
c
NLL_c
NLLc)中获得的收益更少,性能并不比N=2 WRN-28-7(82.94%,0.673)好多少。相反,Cut-MixMo促进了(86.58%,0.488)和(85.50%,0.516)的大型网络的集成(更多的比较在附录6.9中)。
当结合CutMix时,Cut-MixMo之前设置了一个新的状态,即85.77%,
N
=
1
N=1
N=1 WRN-28-10。最终表6显示,当
N
=
2
N=2
N=2时,它进一步达到
86.63
%
86.63\%
86.63%,当
N
=
3
N=3
N=3时,它甚至达到
86.81
%
86.81\%
86.81%。
5. Conclusion
在本文中,我们介绍了MixMo,一个概括了多输入多输出策略的框架,并从最近的数据增强中获得了灵感。MixMo可以作为一种集成方法或一种新的混合样本数据增强方法进行分析,同时仍然与两种研究方向的工作保持互补。我们还引入了一个新的权重计划,以适当地平衡我们的训练损失。总的来说,我们证明了不同的MixMo变体具有出色的性能。特别是,带有两个子网的Cut-MixMo改进了CIFAR-100、CIFAR-100-c和Tiny ImageNet的技术水平。
MixMo更好地利用了大型网络容量,因此可能成为现实世界项目的重要工具。在未来的工作中,自然语言处理等视觉任务之外的应用肯定会被研究。
转载请注明出处 @优快云_Zz弟弟