标题:DiscoBox: Weakly Supervised Instance Segmentation and Semantic Correspondence from Box Supervision
会议:ICCV2021
论文地址:https://ieeexplore.ieee.org/document/9711078/
Abstract
我们提出一个新的框架DiscoBox,它使用边界框监督来联合学习实例分割和语义对应。具体来说,我们提出了一个自集成框架,其中的实例分割和语义对应由结构化教师和边界框监督共同指导。教师是一个结合了成对势能和跨图像势能的结构化能量模型,用于建模边界框内部和边界框之间的成对像素关系。最小化教师能量同时产生精细的目标掩码和类内目标之间的稠密对应关系,将其作为伪标注来监督任务网络并为稠密对比学习提供正/负对应对。我们展示了这两种任务互惠互利的共生关系。我们的最佳模型在COCO实例分割上达到了37.9%AP,超过了之前的弱监督方法,且与全监督方法具有竞争力。我们还取得了PASCAL VOC12和PF-PASCAL的SOTA弱监督实时推理结果。
1. Introduction
目标的定位和识别能力是人类视觉的核心,这促使视觉社区将目标检测作为一项基本的视觉识别任务进行研究。在检测的基础上进一步引入了实例分割来预测前景目标的掩码,从而实现像素级精度的定位。最近,越来越多的工作旨在将上述任务上升到三维空间。因此,为了关联不同视图中的目标部分,地标和(语义)对应已被广泛研究。这些方法已经成为姿态估计和重建中的关键组成部分,因为它们有助于通过额外的约束来减少不确定性,例如确定相机姿态和视点。
在各种对应任务中,语义对应旨在建立不同场景和目标实例之间的关联,由于外观和姿态的巨大差异,可以说是最具挑战性的任务。语义对应和实例分割的文献在很大程度上还是保持着解耦的。例如,主要的语义对应基准一直专注于以目标为中心的场景,不强调目标定位的作用,而最新的实例分割方法没有利用类内对应。然而,这些看似分离的问题是可以相互受益的,因为关联目标部分需要先验地理解感兴趣的目标。同样,理解目标的语义部分需要理解功能部分的几何形状,可以改进目标定位。
尽管联合学习对应和实例分割的优势是显而易见的,但由于缺乏同时具有掩码和对应的大规模数据集,许多SOTA方法并没有使用这种方式。为了克服这一挑战,最近引入了弱监督方法来放松这两个任务中代价高昂的监督需求。我们的工作与它们是一致的,因为我们的目标是利用廉价的边界框监督来联合解决实例分割和语义对应问题。这使我们能够有效地利用更多数据突破界限。
更重要的是,边界框监督提供了一种原则性的方式来耦合上述两个任务:首先,实例分割极大地扩展了语义对应处理多目标场景的能力。这使得我们可以定义一个更具一般性和挑战性的语义对应任务,其性能强调目标级对应的质量和目标定位的准确性。其次,多任务提供了相互约束来克服边界框监督中的平凡解。事实上,我们的研究表现出一种共生关系,即定位通过改善位置和表示而有利于对应,而反过来对应又通过额外的跨图像信息帮助定位。
我们提出DiscoBox,一个将上述目标实例化的框架,如图1所示。DiscoBox利用图像内部和图像之间不同层次的结构化知识和自监督来减少不确定性。
贡献总结:
- 我们的工作首次提出了一个使用边界框监督的联合弱监督实例分割和语义对应的统一框架。
- 我们提出了一个新颖的自集成框架,其中教师的设计是为了促进结构化的归纳偏差,并建立跨目标的对应关系。我们提出的框架可以联合利用图像内部和图像之间的自监督,从而显著提升任务性能。
- 我们在弱监督实例分割上取得了SOTA的性能。我们的最佳模型在COCO test-dev上取得了37.9%AP,超过了YOLACT++(34.6%AP)和Mask R-CNN(37.1%AP)等有竞争力的全监督方法。
- 我们还在弱监督语义对应上取得了SOTA的性能,并首次提出了这项任务的多目标基准。
任务网络。 我们的任务网络包含一个具有多实例学习头的实例分割主干。该模块由包含丰富目标信息的边界框来监督。通过多实例学习,粗糙的目标掩码自然作为网络注意力形成,并被教师作为初始预测。
教师模型。 教师由Gibbs能量定义,包含一元势能、成对势能和跨图像势能。一元势能从学生获取初始输出,成对势能和跨图像势能对边界框内部和边界框之间的成对像素关系进行建模。最小化教师能量可以促进差异敏感的平滑性,同时在目标之间建立稠密的对应。这就允许了我们考虑跨图像自监督,其中,对应为稠密对比学习提供了正负样本对。我们证明这反过来可以提高实例分割的质量。
我们有前途的结果预示着在未来的实例分割问题中完全移除掩码标签的可能性。我们还设想了DiscoBox对许多下游应用的广泛好处,尤其是3D任务。
2. Related Work
2.1. Object recognition and localization
目标检测。 我们的弱监督设计允许DiscoBox在越来越大的数据集上像任何目标检测算法一样被方便地训练,但是输出除了边界框之外的额外预测。
实例分割。 DiscoBox与框架的选择无关,在这项工作中,我们以YOLACT++和SOLOv2作为我们方法的基本结构展示了DiscoBox。
2.2. Weakly supervised segmentation
弱监督语义分割。 目前已经提出了许多方法来学习具有图像级类别标签、点标签、涂鸦标签和边界框标签的语义分割。其中,基于边界框监督的语义分割可能是最相关的,最近的方法如Box2Seg在Pascal VOC上取得了令人印象深刻的性能。这些方法通常使用MCG和GrabCut获得分割伪标注,用于监督后续任务。然而,它们关注的是语义分割,并不区分不同的目标实例。
弱监督实例分割。 这里,“弱监督”一词既可以指对边界框位置放松的监督,也可以指没有掩码标注。前者可以看作是弱监督目标检测的扩展,而我们的工作属于第二类。在后者的方法中,Hsu等人利用边界框紧密包围目标的事实,提出了基于这种紧密性先验的多实例学习框架。为了保持目标的完整性,还施加了成对损失。然而,他们的成对一致性定义在所有相邻像素对上,没有区分成对像素的对比度。Arun等人提出了一个标注一致性框架,该框架可以处理同时具有图像级标签和边界框标签的弱监督实例分割。在COCO上,与全监督方法的差距一直很大,直到最近的BoxInst显著地缩小了这一差距。DiscoBox优于这些方法并且还把语义对应作为目标。
2.3. Finding correspondence
局部特征。 利用局部特征匹配不同视角下的特征点在运动结构恢复等三维视觉问题中得到了广泛的应用。在过去的十几年中,这些方法已经从手工设计的方法发展到基于决策树和深度神经网络的学习方法,文献极为丰富。这些方法主要关注同一目标实例或场景的多视图关联,这与我们的任务不同,尽管有潜在的强烈联系。
语义对应。 语义对应一直是一个具有挑战性的问题。这个问题可以追溯到SIFTFlow,它使用手工设计的特征来建立对应。最近的方法普遍采用深度网络作为强大的特征提取器。这一任务的挑战因对应标注的代价高昂而进一步加剧。现有的数据集规模相对较小,仅提供稀疏的对应真值,因为人工标注稠密的对应真值非常困难。针对这一挑战,弱监督语义对应被提出,用于学习没有对应真值的对应。此外,现有的基准和方法主要关注“以目标为中心”的场景,每个图像都被一个主要目标所占据。在这项工作中,我们通过考虑一个更一般化的多目标场景,在循环中进行目标定位,进一步增加了任务的挑战性。
3. Method
我们为问题中的变量定义如下记号,并在本文剩余部分使用。我们将输入图像记为
I
\boldsymbol{I}
I。给定任一实例分割主干,我们假设生成一个边界框区域建议集合
R
=
{
r
n
∣
n
=
1
,
.
.
.
,
N
}
\boldsymbol{R}=\{\boldsymbol{r}^n\vert n=1,...,N\}
R={rn∣n=1,...,N}。每个边界框建议对应一个尺寸为
C
×
H
×
W
C×H×W
C×H×W的RoI特征图
f
n
\boldsymbol{f}^n
fn。此外,实例分割产生一个目标掩码集合
M
=
{
m
n
∣
n
=
1
,
.
.
.
,
N
}
\boldsymbol{M}=\{\boldsymbol{m}^n\vert n=1,...,N\}
M={mn∣n=1,...,N},其中每个
m
n
\boldsymbol{m}^n
mn是与
r
n
\boldsymbol{r}^n
rn相关的尺寸为
H
×
W
H×W
H×W的概率图。图2展示了所提框架的总览。
3.1. Task network
DiscoBox与任务网络无关,因此我们基于YOLACT++和SOLOv2这两个最新的单阶段实例分割框架进行设计。
YOLACT++。 其结构包括以下几个组成部分:①预测头。该框架采用anchor-based的单阶段检测,其预测头输出一个包含预测坐标和类别概率的边界框建议集合。②掩码头。YOLACT++提出了一个PrototypeNet模块来生成
D
D
D个图像级的潜在分割建议,并使用预测头为每个边界框建议预测一个掩码系数(一个
D
D
D维向量)。因此,每个建议的掩码激活是分割建议和掩码系数加权组合的结果。③主干。采用特征金字塔网络(FPN)作为主干,通过融合分辨率更高的跳跃连接的主干特征来扩大金字塔特征。
SOLOv2。 我们还考虑了一种基于SOLOv2的替代设计。SOLOv2是SOTA的单阶段框架,它以box-free、grouping-free和全卷积的方式直接预测实例掩码。这是通过将目标掩码生成解耦为掩码核预测和掩码特征学习,并结合一个可并行化的矩阵非极大值抑制算法来完成的。SOLOv2同样采用FPN作为主干,它在每个金字塔层上预测掩码核,并在1/4尺度上得到统一的掩码特征。与我们基于YOLACT++的框架稍有不同的是,没有直接预测边界框建议。因此,我们将每个掩码紧密包围的边界框作为裁剪
f
n
\boldsymbol{f}^n
fn的边界框建议。
我们的框架基于YOLACT++和SOLOv2的原始设计和实现,图2给出了一个梗概图解。我们沿用相同的分类和边界框相关的训练损失,本文统称为
L
d
e
t
\mathcal{L}_{det}
Ldet。这包含YOLACT++中的
L
c
l
s
+
L
b
o
x
\mathcal{L}_{cls}+\mathcal{L}_{box}
Lcls+Lbox和SOLOv2中的
L
c
a
t
e
\mathcal{L}_{cate}
Lcate。由于掩码标注不可用,因此我们用下面的多实例学习(MIL)损失替换掉
L
m
a
s
k
\mathcal{L}_{mask}
Lmask。
多实例学习(MIL)。 MIL允许对标签不精确的任务进行弱监督。我们遵循此前文献提出的利用边界框紧密先验的MIL框架。给定一个紧密包围目标的边界框,每一行和每一列都包含至少一个前景像素,可以看作正包。如果行和列与真值框没有重叠,则可以类似地构造负包。令
b
i
\boldsymbol{b}_i
bi表示像素实例属于
r
n
\boldsymbol{r}^n
rn的包
i
i
i的掩码概率集合,则YOLACT++的MIL损失定义为:
L
m
i
l
=
−
∑
i
y
i
l
o
g
(
m
a
x
b
i
)
+
(
1
−
y
i
)
l
o
g
(
1
−
m
a
x
b
i
)
\mathcal{L}_{mil}=-\sum_iy_i\mathrm{log}(\mathrm{max}~\boldsymbol{b}_i)+(1-y_i)\mathrm{log}(1-\mathrm{max}~\boldsymbol{b}_i)
Lmil=−i∑yilog(max bi)+(1−yi)log(1−max bi)其中,如果包
i
i
i为正则
y
i
=
1
y_i=1
yi=1,否则
y
i
=
0
y_i=0
yi=0。对于SOLOv2,
L
m
i
l
\mathcal{L}_{mil}
Lmil的定义与Dice Loss类似。
3.2. Structured teacher
从MIL产生的分割总体来说仍然是粗糙的。我们的主要思想是考虑自集成,它将扰动模型之间的自洽性作为一种自监督来改善表示。自集成是半监督学习最近取得成功的一个重要因素。但与这些方法经常使用增强和随机dropout来创建一个充满噪声的学生不同,我们的问题允许我们通过对结构化关系建模来形成一个强大的扰动教师。促进对比度敏感平滑一直是分割中重要的结构化归纳偏差。我们的主要动机不是通过后处理一步达到,而是通过一个平均场扰动教师,以更渐进的方式引导具有结构化归纳偏差的表示。
我们定义图
G
=
(
V
,
E
)
\boldsymbol{G}=(\boldsymbol{V},\boldsymbol{E})
G=(V,E)上的随机场
X
=
{
X
n
∣
n
=
1
,
.
.
.
,
N
}
\boldsymbol{X}=\{\boldsymbol{X}^n\vert n=1,...,N\}
X={Xn∣n=1,...,N},其中
x
n
∈
{
0
,
1
}
H
×
W
\boldsymbol{x}^n\in\{0,1\}^{H×W}
xn∈{0,1}H×W是
X
n
\boldsymbol{X}^n
Xn在边界框建议
r
n
\boldsymbol{r}^n
rn中的标签。来自边界框
n
n
n的每个结点
v
i
,
i
∈
r
n
\boldsymbol{v}_i,i\in\boldsymbol{r}^n
vi,i∈rn与其直接相邻的8个结点
{
v
j
∣
j
∈
N
p
(
i
)
}
\{\boldsymbol{v}_j\vert j\in\boldsymbol{N}_p(i)\}
{vj∣j∈Np(i)}稀疏连接,与来自另一个类内边界框
s
s
s的所有结点
{
v
k
∣
k
∈
r
s
,
s
∈
N
c
(
n
)
}
\{\boldsymbol{v}_k\vert k\in\boldsymbol{r}^s,s\in\boldsymbol{N}_c(n)\}
{vk∣k∈rs,s∈Nc(n)}稠密连接。然后定义如下的Gibbs能量:
E
(
x
n
,
T
n
s
)
=
τ
u
(
x
n
)
+
τ
p
(
x
n
)
+
∑
s
∈
N
c
(
n
)
τ
c
(
x
n
,
T
n
s
)
E(\boldsymbol{x}^n,\boldsymbol{T}_{ns})=\tau_u(\boldsymbol{x}^n)+\tau_p(\boldsymbol{x}^n)+\sum_{s\in\boldsymbol{N}_c(n)}\tau_c(\boldsymbol{x}^n,\boldsymbol{T}_{ns})
E(xn,Tns)=τu(xn)+τp(xn)+s∈Nc(n)∑τc(xn,Tns)其中,
τ
u
(
x
n
)
=
∑
i
ψ
(
x
i
n
)
\tau_u(\boldsymbol{x}^n)=\sum_i\psi(x_i^n)
τu(xn)=∑iψ(xin)是来自实例分割头初始输出
m
n
\boldsymbol{m}^n
mn的一元势能。
τ
p
(
x
n
)
\tau_p(\boldsymbol{x}^n)
τp(xn)是如下定义的成对势能:
τ
p
(
x
n
)
=
∑
i
∈
r
n
,
j
∈
N
p
(
i
)
w
1
e
x
p
(
−
∣
I
i
n
−
I
j
n
∣
2
2
ζ
2
)
[
x
i
n
≠
x
j
n
]
\tau_p(\boldsymbol{x}^n)=\sum_{i\in\boldsymbol{r}^n,j\in\boldsymbol{N}_p(i)}w_1\mathrm{exp}(-\frac{\left|\boldsymbol{I}_i^n-\boldsymbol{I}_j^n\right|^2}{2\zeta^2})[x_i^n\neq x_j^n]
τp(xn)=i∈rn,j∈Np(i)∑w1exp(−2ζ2
Iin−Ijn
2)[xin=xjn]
其中,
I
i
n
\boldsymbol{I}_i^n
Iin和
I
j
n
\boldsymbol{I}_j^n
Ijn分别是边界框
n
n
n中像素
i
i
i和
j
j
j的RGB颜色,
[
x
i
n
≠
x
j
n
]
[x_i^n\neq x_j^n]
[xin=xjn]是Potts模型给出的标签兼容函数。最后,
τ
c
(
x
n
,
x
s
,
T
n
s
)
\tau_c(\boldsymbol{x}^n,\boldsymbol{x}^s,\boldsymbol{T}_{ns})
τc(xn,xs,Tns)是同时建模稠密对应
T
n
s
\boldsymbol{T}_{ns}
Tns和跨图像成对标签关系的跨图像势能。该项定义为:
τ
c
(
x
n
,
T
n
s
)
=
−
w
2
∑
i
∈
r
n
,
k
∈
r
s
T
n
s
(
i
,
k
)
(
C
u
(
i
,
k
)
+
C
g
(
i
,
k
)
)
[
x
i
n
=
x
k
s
]
\tau_c(\boldsymbol{x}^n,\boldsymbol{T}_{ns})=-w_2\sum_{i\in\boldsymbol{r}^n,k\in\boldsymbol{r}^s}\boldsymbol{T}_{ns}(i,k)(C_u(i,k)+C_g(i,k))[x_i^n=x_k^s]
τc(xn,Tns)=−w2i∈rn,k∈rs∑Tns(i,k)(Cu(i,k)+Cg(i,k))[xin=xks]其中,
T
n
s
\boldsymbol{T}_{ns}
Tns是边界框建议
r
n
\boldsymbol{r}^n
rn和
r
s
\boldsymbol{r}^s
rs之间大小为
H
W
×
H
W
HW×HW
HW×HW的软分配矩阵。此外,
C
u
(
i
,
k
)
C_u(i,k)
Cu(i,k)是一个代价体积矩阵,用于建模外观相似性:
C
u
(
i
,
k
)
=
f
i
n
⋅
f
k
s
∣
f
i
n
∣
∣
f
k
s
∣
C_u(i,k)=\frac{\boldsymbol{f}_i^n·\boldsymbol{f}_k^s}{|{\boldsymbol{f}_i^n||\boldsymbol{f}_k^s}|}
Cu(i,k)=∣fin∣∣fks∣fin⋅fks其中,
f
i
n
\boldsymbol{f}_i^n
fin和
f
k
s
\boldsymbol{f}_k^s
fks分别表示
r
n
\boldsymbol{r}^n
rn中像素
i
i
i和
r
s
\boldsymbol{r}^s
rs中像素
k
k
k的RoI特征。
C
g
(
i
,
k
)
C_g(i,k)
Cg(i,k)被进一步定义为成对平滑正则项,旨在施加几何一致性:
C
g
(
i
,
k
)
=
∑
j
∈
r
n
,
l
∈
r
s
e
x
p
(
−
∣
o
f
f
i
,
k
−
o
f
f
j
,
l
∣
2
2
∗
γ
)
T
n
s
(
j
,
l
)
C_g(i,k)=\sum_{j\in\boldsymbol{r}^n,l\in\boldsymbol{r}^s}\mathrm{exp}(-\frac{|\mathsf{off}_{i,k}-\mathsf{off}_{j,l}|^2}{2*\gamma})\boldsymbol{T}_{ns}(j,l)
Cg(i,k)=j∈rn,l∈rs∑exp(−2∗γ∣offi,k−offj,l∣2)Tns(j,l)其中,
o
f
f
i
,
k
\mathsf{off}_{i,k}
offi,k表示
r
n
\boldsymbol{r}^n
rn中像素
i
i
i和
r
s
\boldsymbol{r}^s
rs中像素
k
k
k间的相对空间偏移量。直观上是通过平滑成对偏移量来避免虚假对应。
3.3. Inference
或者我们利用
x
n
\boldsymbol{x}^n
xn和
T
n
s
\boldsymbol{T}_{ns}
Tns来最小化
E
(
x
n
,
T
n
s
)
E(\boldsymbol{x}^n,\boldsymbol{T}_{ns})
E(xn,Tns)。虽然原始的
τ
c
(
x
n
,
T
n
s
)
\tau_c(\boldsymbol{x}^n,\boldsymbol{T}_{ns})
τc(xn,Tns)包含一个不同标签兼容函数,但其对
x
n
\boldsymbol{x}^n
xn的推理正好等价于下面能量:
τ
c
∗
(
x
n
,
T
n
s
)
=
∑
i
,
k
T
n
s
(
i
,
k
)
(
C
u
(
i
,
k
)
+
C
g
(
i
,
k
)
)
[
x
i
n
≠
x
k
s
]
\tau_c^*(\boldsymbol{x}^n,\boldsymbol{T}_{ns})=\sum_{i,k}\boldsymbol{T}_{ns}(i,k)(C_u(i,k)+C_g(i,k))[x_i^n\neq x_k^s]
τc∗(xn,Tns)=i,k∑Tns(i,k)(Cu(i,k)+Cg(i,k))[xin=xks]因此,
E
(
x
n
,
T
n
s
)
E(\boldsymbol{x}^n,\boldsymbol{T}_{ns})
E(xn,Tns)可以通过标准平均场来最小化。
当固定
x
\boldsymbol{x}
x时,我们通过下面的能量求解一个最优传输问题来优化
T
\boldsymbol{T}
T:
m
i
n
T
n
s
τ
c
(
x
n
,
T
n
s
)
s.t.
T
n
s
1
H
W
=
μ
n
,
T
n
s
⊤
1
H
W
=
μ
s
\underset{\boldsymbol{T}_{ns}}{\mathrm{min}}\tau_c(\boldsymbol{x}^n,\boldsymbol{T}_{ns})~\text{s.t.}~\boldsymbol{T}_{ns}\boldsymbol{1}_{HW}=\mu_n,\boldsymbol{T}_{ns}^\top\boldsymbol{1}_{HW}=\mu_s
Tnsminτc(xn,Tns) s.t. Tns1HW=μn,Tns⊤1HW=μs其中,
μ
n
\mu_n
μn和
μ
s
\mu_s
μs分别表示
r
n
\boldsymbol{r}^n
rn和
r
s
\boldsymbol{r}^s
rs中的像素级重要性,通过对
m
n
\boldsymbol{m}^n
mn和
m
s
\boldsymbol{m}^s
ms使用一个阶跃函数得到。
可以使用可微的匈牙利算法(记为
H
\mathcal{H}
H),如Sinkhorn算法来求解最优传输问题。然而,对于成对项,直接求解变得非常困难。因此,我们用迭代条件模式来近似,其中
T
n
s
\boldsymbol{T}_{ns}
Tns是迭代优化的:
初始:
C
u
←
f
n
⋅
f
s
∣
f
n
∣
∣
f
s
∣
,
C
0
←
C
u
(
i
,
k
)
C_u\leftarrow\frac{\boldsymbol{f}^n·\boldsymbol{f}^s}{|{\boldsymbol{f}^n||\boldsymbol{f}^s}|},C^0\leftarrow C_u(i,k)
Cu←∣fn∣∣fs∣fn⋅fs,C0←Cu(i,k)
分配:
T
n
s
←
H
(
C
t
)
\boldsymbol{T}_{ns}\leftarrow\mathcal{H}(C^t)
Tns←H(Ct)
更新:
C
g
t
(
i
,
k
)
←
∑
j
,
l
e
x
p
(
−
∣
o
f
f
i
,
k
−
o
f
f
j
,
l
∣
2
2
∗
γ
)
T
n
s
(
j
,
l
)
t
,
C
t
+
1
(
i
,
k
)
=
C
u
(
i
,
k
)
+
C
g
t
(
i
,
k
)
C_g^t(i,k)\leftarrow\sum_{j,l}\mathrm{exp}(-\frac{|\mathsf{off}_{i,k}-\mathsf{off}_{j,l}|^2}{2*\gamma})\boldsymbol{T}_{ns}(j,l)^t,C^{t+1}(i,k)=C_u(i,k)+C_g^t(i,k)
Cgt(i,k)←∑j,lexp(−2∗γ∣offi,k−offj,l∣2)Tns(j,l)t,Ct+1(i,k)=Cu(i,k)+Cgt(i,k)
上述算法的示意图如图3所示。
3.4. Learning
根据教师推理的
x
\boldsymbol{x}
x和
T
\boldsymbol{T}
T,我们可以定义如下的自集成损失。我们在任务网络和教师之间施加自一致性:
L
c
o
n
=
1
∣
r
n
∣
∑
i
∈
r
n
[
x
i
n
l
o
g
(
m
i
n
)
+
(
1
−
x
i
n
)
l
o
g
(
1
−
m
i
n
)
]
\mathcal{L}_{con}=\frac{1}{|\boldsymbol{r}^n|}\sum_{i\in\boldsymbol{r}^n}[x_i^n\mathrm{log}(m_i^n)+(1-x_i^n)\mathrm{log}(1-m_i^n)]
Lcon=∣rn∣1i∈rn∑[xinlog(min)+(1−xin)log(1−min)]对于SOLOv2,
L
c
o
n
\mathcal{L}_{con}
Lcon的定义与Dice Loss类似。我们还利用稠密对应
T
n
s
\boldsymbol{T}_{ns}
Tns获得正负对来进行稠密对比学习:
L
n
c
e
=
1
∣
r
n
∣
∑
i
∈
r
n
l
o
g
e
x
p
(
C
u
(
i
,
t
i
)
/
τ
)
∑
k
∈
r
s
e
x
p
(
C
u
(
i
,
k
)
/
τ
)
\mathcal{L}_{nce}=\frac{1}{|\boldsymbol{r}^n|}\sum_{i\in\boldsymbol{r}^n}\mathrm{log}\frac{\mathrm{exp}(C_u(i,t_i)/\tau)}{\sum_{k\in\boldsymbol{r}^s}\mathrm{exp}(C_u(i,k)/\tau)}
Lnce=∣rn∣1i∈rn∑log∑k∈rsexp(Cu(i,k)/τ)exp(Cu(i,ti)/τ)其中,
t
i
=
a
r
g
m
a
x
k
T
n
s
(
i
,
k
)
t_i=\mathrm{arg~max}_k\boldsymbol{T}_{ns}(i,k)
ti=arg maxkTns(i,k),
τ
\tau
τ是温度。因此,我们的联合损失可以写为:
L
=
L
d
e
t
+
α
m
i
l
L
m
i
l
+
α
c
o
n
L
c
o
n
+
α
n
c
e
L
n
c
e
\mathcal{L}=\mathcal{L}_{det}+\alpha_{mil}\mathcal{L}_{mil}+\alpha_{con}\mathcal{L}_{con}+\alpha_{nce}\mathcal{L}_{nce}
L=Ldet+αmilLmil+αconLcon+αnceLnce
3.5. Exponential moving averaged teacher
为了加强模型级增强的教师,提高稳定性,以及更好的迭代之间的一致性,我们遵循此前文献获得指数移动平均(EMA)的平均教师。这是通过维护共享相同的结构并用下面的式子更新参数的另一个网络来完成的:
θ
t
←
m
θ
t
+
(
1
−
m
)
θ
s
\theta_t\leftarrow m\theta_t+(1-m)\theta_s
θt←mθt+(1−m)θs其中,
θ
t
\theta_t
θt和
θ
s
\theta_s
θs分别是教师网络和任务网络的参数。
m
m
m是动量,设为0.999。我们不对教师进行训练,只对其进行更新。
3.6. Object retrieval with memory bank
为了方便地获得语义对应的目标对,我们为每个类别构建一个先进先出(FIFO)队列,我们从每个batch中推入RoI特征 f \boldsymbol{f} f和掩码 m \boldsymbol{m} m。这使得我们可以重复使用RoI特征和掩码,在构建目标对时不需要太多的额外计算。在训练过程中,模型将从目标库中检索相似的类内目标。在计算完所有损失后,我们将除了面积 < 32 × 32 <32×32 <32×32的目标外的所有目标都推入目标库中。类间目标存储在不同的队列中。只有类内目标共享同一个目标库。在实际应用中,我们将一个类别的目标库大小设置为100。
4. Experiments
在4个数据集上进行实验:PASCAL VOC 2012(VOC12)、COCO、PF-PASCAL和PASCAL 3D+。前二者用于实例分割,后二者用于语义对应。
4.1. Datasets and metrics
介绍了这4个数据集。
多目标对应的评价指标。 与目标检测类似,我们引入一种基于precision-recall的平均精度(AP)度量。假设每个预测的对应都有一个置信度,我们将其定义为成对边界框置信度的乘积。这使得我们可以通过定义真阳性(TP)、假阳性(FP)和假阴性(FN)来计算精确率和召回率。由于PASCAL 3D+只提供稀疏的对应真值,这里的难点是正确忽略一些远离任何真值但是正确的对应预测。为此,我们遵循一个关键点迁移的设置,我们总是为任意成对目标定义一个源端
s
s
s和目标端
t
t
t。给定一个真值
(
g
j
s
,
g
j
t
)
(\boldsymbol{g}_j^s,\boldsymbol{g}_j^t)
(gjs,gjt),一个预测对应
(
p
i
s
,
p
i
t
)
(\boldsymbol{p}_i^s,\boldsymbol{p}_i^t)
(pis,pit)和一个距离阈值
α
\alpha
α:
T
P
i
=
∑
j
I
[
∣
p
i
s
−
g
j
s
∣
≤
α
]
×
I
[
∣
p
i
t
−
g
j
t
∣
≤
α
]
∑
j
I
[
∣
p
i
s
−
g
j
s
∣
≤
α
]
+
I
[
∑
j
I
[
∣
p
i
t
−
g
j
t
∣
≤
α
]
=
0
]
\mathrm{TP}_i=\frac{\sum_j\mathbb{I}[|\boldsymbol{p}_i^s-\boldsymbol{g}_j^s|≤\alpha]×\mathbb{I}[|\boldsymbol{p}_i^t-\boldsymbol{g}_j^t|≤\alpha]}{\sum_j\mathbb{I}[|\boldsymbol{p}_i^s-\boldsymbol{g}_j^s|≤\alpha]+\mathbb{I}[\sum_j\mathbb{I}[|\boldsymbol{p}_i^t-\boldsymbol{g}_j^t|≤\alpha]=0]}
TPi=∑jI[∣pis−gjs∣≤α]+I[∑jI[∣pit−gjt∣≤α]=0]∑jI[∣pis−gjs∣≤α]×I[∣pit−gjt∣≤α]
F
P
i
=
∑
j
I
[
∣
p
i
s
−
g
j
s
∣
≤
α
]
×
I
[
∣
p
i
t
−
g
j
t
∣
>
α
]
∑
j
I
[
∣
p
i
s
−
g
j
s
∣
≤
α
]
+
I
[
∑
j
I
[
∣
p
i
t
−
g
j
t
∣
≤
α
]
=
0
]
\mathrm{FP}_i=\frac{\sum_j\mathbb{I}[|\boldsymbol{p}_i^s-\boldsymbol{g}_j^s|≤\alpha]×\mathbb{I}[|\boldsymbol{p}_i^t-\boldsymbol{g}_j^t|>\alpha]}{\sum_j\mathbb{I}[|\boldsymbol{p}_i^s-\boldsymbol{g}_j^s|≤\alpha]+\mathbb{I}[\sum_j\mathbb{I}[|\boldsymbol{p}_i^t-\boldsymbol{g}_j^t|≤\alpha]=0]}
FPi=∑jI[∣pis−gjs∣≤α]+I[∑jI[∣pit−gjt∣≤α]=0]∑jI[∣pis−gjs∣≤α]×I[∣pit−gjt∣>α]
F
N
i
=
{
1
i
f
∑
j
I
[
∣
p
i
s
−
g
j
s
∣
≤
α
]
=
0
,
0
o
t
h
e
r
w
i
s
e
\mathrm{FN}_i=\left\{\begin{matrix} 1~&\mathrm{if}~\sum_j\mathbb{I}[|\boldsymbol{p}_i^s-\boldsymbol{g}_j^s|≤\alpha]=0,\\ 0~&\mathrm{otherwise} \end{matrix}\right.
FNi={1 0 if ∑jI[∣pis−gjs∣≤α]=0,otherwise我们将平均精度称为AP@
α
α
α,其中
α
α
α是相对于边界框对角线的阈值。我们将最终的AP定义为:mean(AP@{0.75%,1%,1.5%,2%,3%})。
4.2. Implementation details
训练阶段的实现细节。
4.3. Weakly supervised instance segmentation
在COCO和VOC12上的对比实验,具体的实验结论可以参照原文。
证明各项有效性的消融实验,损失权重并不敏感。具体的实验结论可以参照原文。
4.4. Weakly supervised semantic correspondence
语义对应效果提升的3个可能因素:①结构化教师的改进设计,在目标层呈现良好的对应质量。②边界框监督学习框架,使得利用更多的数据来扩大训练规模并获得改进的对应表示成为可能。③高质量的目标定位信息作为耦合学习框架的结果,有助于指导语义对应学习。具体的实验结论可以参照原文。
5. Conclusions
我们提出了DiscoBox,一个新颖的框架,能够从边界框监督中联合学习实例分割和语义对应。我们提出的带有结构化教师的自集成框架在两个任务中都取得了显著的进步。我们还提出了一个新颖的多目标语义对应基准和一个原则性的评价指标。由于DiscoBox能够从边界框监督中联合产生高质量的实例分割和语义对应,我们设想DiscoBox可以扩展并使许多下游的2D和3D视觉任务受益。