快一个月没看论文了,突然觉得心里有点发慌。看看毕业条件,瞬间为自己感到担忧,努力吧,骚年!
本文是译文,为了自己阅读方便,可能有不对的地方,有能力的建议看原文https://arxiv.org/pdf/1904.07220.pdf
摘要
当前对端到端可训练计算机视觉系统的努力对视觉跟踪任务提出了重大挑战。与大多数其他视觉问题相反,跟踪需要在推理阶段在线学习一个健壮的特定目标外观模型。为了实现端到端的可训练性,目标模型的在线学习因此需要嵌入到跟踪架构本身中。由于强加的挑战,流行的孪生范式简单地预测目标特征模板,而在推理过程中忽略背景外观信息。因此,预测模型具有有限的目标-背景可区分性。
我们开发了一个端到端跟踪架构,能够充分利用目标和背景外观信息进行目标模型预测。我们的体系结构是通过设计一个专用的优化过程从一个有区别的学习损失中推导出来的,该优化过程能够在仅仅几次迭代中预测一个强大的模型。此外,我们的方法能够了解歧视性损失本身的关键方面。提议的跟踪器在6个跟踪基准上设置了一个新的最先进的状态,在VOT2018上实现了0.440的EAO分数,同时以超过40 FPS的速度运行。
1. 引言
通用目标跟踪是在视频序列的每一帧中估计任意目标状态的任务。在最一般的设置中,目标仅由其在序列中的初始状态来定义。大多数当前的方法通过构建能够区分目标和背景外观的目标模型来解决跟踪问题。由于特定于目标的信息只在测试时可用,目标模型不能在离线训练阶段学习,例如在对象检测中。相反,目标模型必须在推理阶段通过利用测试时给出的目标信息来构建。视觉跟踪问题的这种非常规性质在追求端到端学习解决方案时带来了巨大的挑战。
图1所示。目标模型提供的目标对象(红框)的置信度图,使用i) Siamese方法(中)和ii)我们的方法(右)。该模型以孪生式的方式预测,仅使用目标的外观,努力区分目标和在背景中的干扰对象。相比之下,我们的模型预测架构也集成了背景外观,提供了优越的辨别能力。
上述问题已被孪生学习范式最成功地解决[2,23]。这些方法首先学习一种特征嵌入,即通过简单的互相关计算两个图像区域之间的相似度。然后通过寻找与目标模板最相似的图像区域来进行跟踪。在此设置中,目标模型仅对应于从目标区域提取的模板特征。因此,跟踪器可以很容易地使用对带注释的图像进行端到端训练。
尽管最近取得了成功,但孪生学习框架存在着严重的局限性。首先,Siamese跟踪器在推理模型时仅利用目标外观。这完全忽略了背景的外观信息,而背景信息对于从场景中相似的物体中区分目标是至关重要的(见图1)。其次,学习到的相似度度量对于离线训练集中没有包含的物体不一定可靠,导致泛化效果不佳。第三,孪生公式没有提供一个强大的模型更新策略。相反,最先进的方法使用简单的模板平均[46]。这些限制导致[20]的鲁棒性低于其他最先进的跟踪方法。
在这项工作中,我们引入了一种替代的跟踪架构,以端到端方式训练,它直接解决了所有上述的限制。在我们的设计中,我们从最近在跟踪器中成功应用的有区别的在线学习程序中获得了灵感[6,9,30]。我们的方法是基于目标模型预测网络,它是由一个判别学习损失通过迭代优化程序得到的。该体系结构经过精心设计,以实现有效的端到端训练,同时最大化预测模型的识别能力。这是通过两个关键的设计选择确保优化步骤的最小数量来实现的。首先,我们采用基于最陡下降的方法,在每次迭代中计算最优步长。其次,我们集成了一个有效初始化目标模型的模块。此外,我们通过学习区分学习损失本身,在我们最终的架构中引入了显著的灵活性。
我们的整个跟踪体系结构,连同主干特征提取器,都是通过最小化对未来帧的预测误差,使用带注释的跟踪序列来训练的。我们在VOT2018[20]、LaSOT[10]、TrackingNet[27]、GOT10k[16]、NFS[12]、OTB-100[43]、UA V123[26] 7个跟踪基准上进行了综合实验。我们的方法在所有7个数据集上取得了最先进的结果,同时运行速度超过40帧/秒。我们还对提议的架构提供了广泛的实验分析,展示了每个组件的影响。
2. 相关工作
近年来,随着各种方法的发展,通用目标跟踪取得了惊人的进展。近年来,基于Siamese网络的方法[2,23,39]因其端到端训练能力和效率高而受到广泛关注。该名称源于部署一个孪生网络体系结构,以便离线学习相似度度量。Bertinetto等人[2]利用全卷积架构进行相似性预测,从而获得超过100帧/秒的高速跟踪速度。Wang等人[42]学习了一种剩余注意机制,使跟踪模型适应当前目标。Li等人[23]使用区域建议网络[34]来获得准确的边界盒。
Siamese方法的一个关键限制是它们不能将来自背景区域或先前跟踪帧的信息纳入模型预测。最近的一些尝试旨在解决这些问题。Guo等人[13]学习了一种特征变换来处理目标外观变化和抑制背景。Zhu等人在在线跟踪时通过从目标模板中减去相应的图像特征来处理背景干扰。尽管这些尝试,孪生跟踪器还没有通过使用在线学习获得最先进的跟踪器[20]达到高水平的稳健性。
与Siamese方法不同的是,另一类跟踪器[6,7,30]在线学习一种鉴别分类器来从背景中区分目标对象。这些方法可以有效地利用背景信息,从而在多个跟踪基准上实现令人印象深刻的鲁棒性[20,43]。然而,这些方法依赖于更复杂的在线学习程序,在端到端学习框架中不容易制定。因此,这些方法往往局限于提取预先训练的深度网络的特征用于图像分类[9,25]或手工制作的替代方案[8]。
为了从端到端训练中获益,一些最近的工作旨在制定现有的基于识别的在线学习跟踪器作为神经网络组件。Valmadre等人[41]将相关滤波器(CF)[15]的单样本封闭形式解决方案集成到一个深度网络中。Yao等人[45]在BACF[18]跟踪器中展开ADMM迭代,在复杂的多阶段训练过程中学习特征提取器和一些跟踪超参数。然而,BACF模型学习局限于傅里叶域CF公式的单样本变量,不能利用多个样本,需要特别的滤波器线性组合来适应模型。
学习使用少量图像预测目标模型的问题与元学习密切相关[11,28,29,33,35,36,40]。一些作品已经在朝着这个方向进行跟踪。Bertinetto等人[1]对网络进行元训练,以预测跟踪模型的参数。Choi等人的[5]利用元学习来预测目标特定的特征空间,以补充用于估计测量器内部相似度的一般目标独立特征空间。Parket等人[32]开发了一个使用初始目标独立模型的元学习框架,然后使用学习步长梯度下降对其进行改进。然而,常数步长只适用于模型的快速初始适应,迭代应用时不能提供最优收敛性。
3. 方法
在这项工作中,我们开发了一个判别模型预测架构的跟踪。与孪生跟踪器一样,我们的方法得益于端到端训练。然而,与Siamese不同的是,我们的体系结构可以充分利用背景信息,并提供自然而强大的方法来使用新数据更新目标模型。我们的模型预测网络来自两个主要原则:(i)区分学习损失促进鲁棒性的学习目标模型;(ii)一个强大的优化策略,确保快速收敛。通过这样仔细的设计,我们的体系结构可以在只有几次迭代的情况下预测目标模型,而不影响其识别能力。
图2。我们跟踪体系结构中的目标分类分支的概述。给定一个带注释的训练集(左上角),我们使用一个主干网络和一个附加的卷积块(Cls Feat)来提取深度特征图。然后,将特性图输入到模型预测器D,该预测器由初始化器和循环优化器模块组成。模型预测器输出卷积层的权值,卷积层对测试帧提取的特征图进行目标分类。
在我们的框架中,目标模型构成一个卷积层的权重,并提供目标分类分数作为输出。我们的模型预测架构以一组带边界框标注的图像样本作为输入来计算这些权重。模型预测器包括一个初始化网络,有效地提供模型权重的初始估计,只使用目标外观。然后优化器模块处理这些权重,同时考虑目标和背景外观。通过设计,我们的优化器模块拥有很少的可学习参数,以避免在离线训练时对某些类和场景进行过拟合。因此,我们的模型预测器可以推广到不可见的目标,这在一般目标跟踪中是至关重要的。
我们最终的跟踪体系结构由两个分支组成:一个是目标分类分支(见图2),用于区分目标和背景;另一个是边界框估计分支,用于预测准确的目标框。两个分支都从一个共同的骨干网输入深层特征。目标分类分支包含一个卷积块,用于提取分类器操作的特征。给定一组训练样本和相应的目标框,模型预测器生成目标分类器的权值。然后将这些权重应用于从测试框架中提取的特征,以计算目标置信值。对于边界框估计分支,我们采用了[6]中引入的基于重叠最大化的架构。整个跟踪网络,包括目标分类、边界框估计和主干模块,在跟踪数据集上离线训练。
3.1 歧视学习损失
在本节中,我们描述用于推导我们的模型预测架构的鉴别学习损失。我们的模型预测器D的输入由特征提取器网络
F
F
F生成的深度特征映射
x
j
∈
X
x_j∈X
xj∈X的训练集
S
t
r
a
i
n
=
[
(
x
j
,
c
j
)
]
j
=
1
n
S_{train}= [{(x_j, c_j)}]^n_{j=1}
Strain=[(xj,cj)]j=1n组成。每个样本配对对应的目标中心坐标
c
j
∈
R
2
c_j∈R^2
cj∈R2。考虑到这些数据,我们的目的是预测一个目标模型
f
=
D
(
S
t
r
a
i
n
)
f = D(S_{train})
f=D(Strain)。模型
f
f
f被定义为卷积层的滤波器权重,其任务是在特征空间
X
X
X中区分目标和背景外观。我们从基于最小二乘回归的跟踪问题中获得灵感,该问题近年来取得了巨大成功[6,7,15]。然而,在这项工作中,我们推广了传统的最小二乘损失应用于跟踪几个方向,允许最终的跟踪网络学习数据的最佳损失。
一般来说,我们认为形式的损失,
在这里,∗表示卷积,而
λ
λ
λ是一个正则化因子。函数
r
(
s
,
c
)
r(s,c)
r(s,c)是基于目标置信度得分
s
=
x
∗
f
s = x∗f
s=x∗f和真实目标中心坐标
c
c
c计算的每个空间位置的残差。最常见的选择是
r
(
s
,
c
)
=
s
−
y
c
r(s,c) = s−y_c
r(s,c)=s−yc,其中
y
c
y_c
yc是每个位置的期望目标得分,通常设置为以
c
c
c [4]为中心的高斯函数。对于所有的负样本,简单地采用差异迫使模型回归校准的置信值,通常为零。这需要大量的模型容量,迫使学习集中在负数据样本上,而不是达到最好的辨别能力。此外,利用原始差异并不能解决目标和背景之间的数据不平衡问题。
为了缓解后一个问题的数据不平衡,我们使用了一个空间权函数
v
c
v_c
vc。下标
c
c
c表示对目标中心位置的依赖性,详见第3.4节。为了解决第一个问题,我们按照支持向量机的原理修改了损失。我们在
r
r
r中使用了一个hinger-like损失,将得分裁剪为0作为背景区域的max(0,s)。因此,该模型可以在不增加损失的情况下,自由预测背景中简单样本的大负值。另一方面,对于目标区域,我们发现增加一个类似的hinger损耗max(0,1-s)是不利的。虽然乍看起来是矛盾的,但这种行为可以归因于目标和背景类之间的基本不对称,部分是由于数字的不平衡。此外,精确校准的目标置信度在跟踪场景中确实是有利的,例如用于检测目标丢失。因此,我们需要目标邻域中标准最小二乘回归的性质。
为了适应最小二乘回归和hinger损失的优点,我们定义残差函数,
目标区域由掩码
m
c
m_c
mc定义,在每个空间位置
t
∈
R
2
t∈R^2
t∈R2,区间
m
c
(
t
)
∈
[
0
,
1
]
m_c(t)∈[0,1]
mc(t)∈[0,1]。下标c再次表示对目标中心坐标的依赖性。(2)中的公式能够根据相对于目标中心c的图像位置,连续地将损失行为从标准最小二乘回归改变为hinger损失。在目标处设置
m
c
≈
1
m_c≈1
mc≈1,在背景处设置
m
c
≈
0
m_c≈0
mc≈0,产生上述期望行为。但是,如何最优地设置
m
c
m_c
mc还不清楚,特别是在目标和背景之间的过渡区域。虽然传统的策略是使用试错法手动设置掩码参数,但我们的端到端公式允许我们以数据驱动的方式学习掩码。事实上,如3.4节所述,我们的方法学习了损失中的所有自由参数:目标掩码
m
c
m_c
mc、空间权重
v
c
v_c
vc、正则化因子
λ
λ
λ,甚至回归目标
y
c
y_c
yc本身。
3.2 基于优化的体系结构
在这里,我们通过隐式最小化误差(1)来导出预测滤波器
f
=
D
(
S
t
r
a
i
n
)
f = D(S_{train})
f=D(Strain)的网络结构
D
D
D。网络是通过制定优化程序来设计的。从公式(1)和(2)我们可以很容易地导出损耗
∇
L
∇L
∇L相对于滤波器
f
2
f^2
f2的梯度的封闭表达式。直截了当的选择是使用步长
α
α
α采用梯度下降,
然而,我们发现这种简单的方法是不够的,即使学习速率α(标量或系数特定)是由网络本身学习的(见第4.1节)。它经历了滤波器参数f的缓慢适应,需要大量增加迭代次数。这损害了效率,使线下学习变得复杂。
梯度下降的缓慢收敛很大程度上是由于恒定步长α,它不依赖于数据或当前模型估计。我们通过推导一种更精细的优化方法来解决这个问题,只需要少量的迭代就可以预测强鉴别滤波器。核心思想是基于最速下降法计算步长α,这是一种常见的优化技术[31,37]。我们首先用当前估计
f
(
i
)
f^{(i)}
f(i)的二次函数来近似损失,
这里,滤波器变量
f
f
f和
f
(
i
)
f^{(i)}
f(i)被看作向量,
Q
(
i
)
Q^{(i)}
Q(i)是正定方阵。然后,最陡的下降通过找到使梯度方向(3)上的近似损失(4)最小化的步长
α
α
α来进行。这是通过求解以下方程等到的。
在最速下降中,公式(5)用于在滤波器更新(3)的每次迭代中计算标量步长
α
α
α。
二次模型(4),以及由此产生的步长(5),取决于
Q
(
i
)
Q^{(i)}
Q(i)的选择。例如,通过使用缩放的单位矩阵
Q
(
i
)
=
1
/
β
∗
I
Q^{(i)}= 1/β*I
Q(i)=1/β∗I,我们检索具有固定步长
α
=
β
α = β
α=β的标准梯度下降算法。另一方面,我们现在可以将二阶信息集成到优化过程中。最明显的选择是将
Q
(
i
)
=
∂
2
L
/
∂
f
2
∗
(
f
(
i
)
)
Q^{(i)}=∂^2L/ ∂f^2*(f^{(i)})
Q(i)=∂2L/∂f2∗(f(i))设置为损失(1)的Hessian,这对应于二阶泰勒近似(4)。然而,对于我们的最小二乘公式(1),高斯-牛顿法[31]提供了一个强有力的选择,具有显著的计算优势,因为它只涉及一阶导数。因此,我们设置
Q
(
i
)
=
(
J
(
i
)
)
T
J
(
i
)
Q^{(i)}= (J^{(i)})^TJ^{(i)}
Q(i)=(J(i))TJ(i),其中
J
(
i
)
J^{(i)}
J(i)是
f
(
i
)
f^{(i)}
f(i)处残差的雅可比。事实上,矩阵
Q
(
i
)
Q^{(i)}
Q(i)或雅可比
J
(
i
)
J^{(i)}
J(i)都不需要显式构造,而是作为一系列神经网络操作来实现。详见补充资料(S2部分)。算法1描述了我们的目标模型预测器
D
D
D。注意,我们的优化器模块也可以很容易地用于在线模型自适应。这是通过使用之前跟踪的帧中的新样本不断扩展训练集
S
t
r
a
i
n
S_{train}
Strain来实现的。然后,使用当前目标模型作为初始化
f
(
0
)
f^{(0)}
f(0),将优化器模块应用于这个扩展的训练集。
3.3 初始滤波器预测
为了进一步减少
D
D
D中所需的优化递归次数,我们引入了一个小的网络模块来预测初始模型估计
f
(
0
)
f^{(0)}
f(0)。我们的初始化器网络由一个卷积层和一个精确的ROI池化[17]组成。后者从目标区域提取特征,并将其集中到与目标模型
f
f
f相同的大小。然后在
S
t
r
a
i
n
S_{train}
Strain中对所有样本进行平均,得到初始模型
f
(
0
)
f^{(0)}
f(0)。在孪生跟踪器中,这种方法只利用目标外观。然而,我们的初始化器网络的任务不是预测最终的模型,而是仅提供合理的初始估计,然后优化器模块处理该估计以提供最终的模型。
3.4 区别性学习损失的学习
在这里,我们描述如何学习残差函数(2)中的自由参数,定义损失(1)。我们的残差函数包括标签置信度
y
c
y_c
yc,空间权函数
v
c
v_c
vc和目标掩码
m
c
m_c
mc,虽然这些变量在目前基于判别在线学习的跟踪器中是手工构造的,但我们的方法实际上是从数据中学习这些函数。我们根据到目标中心的距离对它们进行参数化。这是由径向对称的问题激发的,其中的方向的样本位置相对于目标是没有意义的。而与样本位置的距离则起着至关重要的作用,特别是在目标到背景的过渡过程中。因此,我们使用径向基函数
ρ
k
ρ_k
ρk来参数化
y
c
y_c
yc、
m
c
m_c
mc和
v
c
v_c
vc,并学习它们的系数
ϕ
k
\phi k
ϕk。例如,在位置
t
∈
R
2
t ∈ R^2
t∈R2的标签
y
c
y_c
yc由下式给出
我们使用三角基函数
ρ
k
ρ_k
ρk,定义为
上述公式对应的是一个连续分段线性函数,节点位移为∆。注意,最后一种情况k = N−1表示远离目标中心的所有位置,因此可以相同地处理。我们使用一个小的∆来保证在目标-背景过渡时回归标签的精确表示。函数
v
c
v_c
vc和
m
c
m_c
mc分别使用(6)中的系数
ϕ
k
v
\phi ^v _k
ϕkv和
ϕ
k
m
\phi ^m _k
ϕkm近似参数化。对于目标掩码
m
c
m_c
mc,我们通过sigmoid函数将(6)的输出值约束到区间[0,1]。
图3。学习回归标签(
y
c
y_c
yc)、目标掩码(
m
c
m_c
mc)和空间权重(
v
c
v_c
vc)的图。标记显示结的位置。每个量的初始化用虚线表示。
我们使用
N
=
100
N = 100
N=100个基函数,在深度特征空间
X
X
X的分辨率中,将节点位移设为
∆
=
0.1
∆= 0.1
∆=0.1。在离线训练中,回归标签
y
c
y_c
yc初始化为与在离线分类丢失中使用的高斯
z
c
z_c
zc相同,见第3.6节。权值函数
v
c
v_c
vc初始化为常数
v
c
(
t
)
=
1
v_c(t) = 1
vc(t)=1。最后,我们使用一个缩放的tanh函数初始化目标掩码
m
c
m_c
mc。系数
ϕ
k
\phi k
ϕk和
λ
λ
λ作为模型预测网络
D
D
D的一部分被学习(见第3.6节)。
y
c
y_c
yc、
m
c
m_c
mc和
v
c
v_c
vc的初始值和学习值如图3所示。值得注意的是,我们的网络学会了在目标中心增加权重
v
c
v_c
vc,并在模糊过渡区域降低权重。
3.5 边界框估计
我们利用[6]中介绍的重叠最大化策略来完成精确边界框估计的任务。给定参考目标外观,训练边界框估计分支来预测目标和测试图像上的一组候选框之间的IoU重叠。通过从目标的参考外观计算调制向量,将目标信息集成到IoU预测中。计算的矢量用于调制测试图像的特征,然后用于IoU预测。IoU预测网络在输入框坐标方面是可区分的,允许在跟踪过程中通过最大化预测的IoU来细化候选项。我们使用与[6]中相同的网络架构。
3.6 离线训练
在这里,我们描述我们的离线训练程序。在Siamese方法中,网络使用图像对进行训练,使用一幅图像预测目标模板,另一幅图像评估跟踪器。相比之下,我们的模型预测网络D从序列中输入一组
S
t
r
a
i
n
S_{train}
Strain的多个数据样本。为了更好地利用这一优势,我们在对集
(
M
t
r
a
i
n
,
M
t
e
s
t
)
(M_{train}, M_{test})
(Mtrain,Mtest)上训练我们的完整跟踪体系结构。每个集合
M
=
[
(
I
j
,
b
j
)
]
j
N
f
r
a
m
e
s
=
1
M = [{(I_j, b_j)}]^{N_frames} _j=1
M=[(Ij,bj)]jNframes=1由图像
I
j
I_j
Ij与其对应的目标边框
b
j
b_j
bj配对组成。利用
M
t
r
a
i
n
M_{train}
Mtrain对目标模型进行训练,然后对测试帧
M
t
e
s
t
M_{test}
Mtest进行估计。唯一的是,我们的训练允许模型预测器D学习如何更好地利用多个样本。这些集合是通过在序列中抽样一个随机长度
T
s
s
T_{ss}
Tss的片段来构造的。然后,我们通过分别从片段的第一部分和第二部分采样
N
f
r
a
m
e
s
N_{frames}
Nframes来构造
M
t
r
a
i
n
M_{train}
Mtrain和
M
t
e
s
t
M_{test}
Mtest。
给定一对(
M
t
r
a
i
n
M_{train}
Mtrain,
M
t
e
s
t
M_{test}
Mtest),我们首先将图像通过主干特征提取器来构建我们目标模型的样本。形式上,得到的训练集为
S
t
r
a
i
n
=
(
F
(
I
j
)
,
c
j
)
:
(
I
j
,
b
j
)
∈
M
t
r
a
i
n
S_{train}= {(F(I_j), c_j): (I_j, b_j)∈M_{train}}
Strain=(F(Ij),cj):(Ij,bj)∈Mtrain,其中
c
j
c_j
cj为框
b
j
b_j
bj的中心坐标。这是输入到目标预测因子
f
=
D
(
S
t
r
a
i
n
)
f = D(S_{train})
f=D(Strain)。目的是预测一个有区别的模型
f
f
f,它能很好地推广到未来看不见的框架。因此,我们仅在测试样本
S
t
e
s
t
S_{test}
Stest上评估预测模型
f
f
f,
S
t
e
s
t
S_{test}
Stest是使用
M
t
e
s
t
M_{test}
Mtest类似方法获得的。在第3.1节的讨论之后,我们使用背景样本的hinger来计算回归误差,
这里,阈值
T
T
T基于标签置信度值
z
z
z定义目标和背景区域。对于目标区域
z
>
T
z > T
z>T,我们取预测置信度得分
s
s
s和标签
z
z
z之间的差值,而对于背景
z
≤
T
z ≤ T
z≤T,我们只惩罚正置信度值
总目标分类损失计算为所有测试样本的均方误差(8)。然而,我们不是只评估最终的目标模型
f
f
f,而是对优化器在每次迭代I中获得的估计
f
(
i
)
f^{(i)}
f(i)进行平均(参见alg.1)。这在目标预测模块中引入了中间监督,有利于训练收敛。此外,我们的目标不是针对特定的递归次数进行训练,而是可以自由地在线设置所需的优化递归次数。因此,相等地计算每个迭代
f
(
i
)
f^{(i)}
f(i)是很自然的。用于离线训练的目标分类损失由下式给出:
这里,回归标签
z
c
z_c
zc被设置为以目标
c
c
c为中心的高斯函数。注意,来自滤波器初始值设定项(第3.3节)的输出
f
(
0
)
f^{(0)}
f(0)也包括在上述损失中。尽管没有明确表示以避免混乱,但是(9)中的
x
x
x和
f
(
i
)
f^{(i)}
f(i)都依赖于特征提取网络
F
F
F的参数。模型迭代f(i)还依赖于模型预测器网络d中的参数。
对于边界框估计,我们将[6]中的训练过程扩展到图像集,通过计算
M
t
r
a
i
n
M_{train}
Mtrain中第一帧上的调制向量,并对
M
t
e
s
t
M_{test}
Mtest中所有图像进行候选框的采样。边界盒估计损失
L
b
b
L_{bb}
Lbb作为
M
t
e
s
t
M_{test}
Mtest中预测的IoU重叠与真值之间的平均平方误差。我们将其与目标分类丢失(9)相结合,训练了完整的跟踪体系结构,即
L
t
o
t
=
β
L
c
l
s
+
L
b
b
L_{tot}= βL_{cls} + L_{bb}
Ltot=βLcls+Lbb。
训练细节:我们使用TrackingNet[27]、LaSOT[10]、GOT10k[16]和COCO[24]数据集的训练分块。主干网络是用ImageNet权重初始化的。我们通过每个epoch采样20,000个视频来训练50个epoch,在单个Nvidia TITAN X GPU上的总训练时间不到24小时。我们使用的ADAM[19]学习率衰减为0.2每15个epoch。目标分类损失权重设置为
β
=
1
0
2
β= 10^2
β=102,我们在训练期间使用(9)中的
N
i
t
e
r
=
5
N_{iter}= 5
Niter=5优化器模块递归。(
M
t
r
a
i
n
M_{train}
Mtrain,
M
t
e
s
t
M_{test}
Mtest)中的图像块是通过对相对于目标注释的随机平移和缩放进行采样来提取的。我们将基本比例设置为目标大小的5倍,以包含重要的背景信息。对于每个序列,我们使用
T
s
s
=
60
T_{ss}= 60
Tss=60的片段长度对
N
f
r
a
m
e
s
=
3
N_{frames}= 3
Nframes=3个测试和训练帧进行采样。使用相对于基本目标尺寸的1/4的标准偏差来构建标签分数
z
c
z_c
zc,并且我们使用
T
=
0.05
T = 0.05
T=0.05作为回归误差(8)。我们采用ResNet架构作为主干。对于模型预测器
D
D
D,我们使用从第三个块提取的特征,具有16的空间步幅。我们将目标模型
f
f
f的内核大小设置为4 × 4。
3.7 在线跟踪
对于带有注释的第一帧,我们使用数据增强策略[3]来构建包含15个样本的初始集 S t r a i n S_{train} Strain。然后使用我们的判别模型预测架构 f = D ( S t r a i n ) f = D(S_{train}) f=D(Strain)得到目标模型。对于第一帧,我们在初始化器模块之后使用了10次最陡的下降递归。我们的方法允许通过在 S t r a i n S_{train} Strain添加一个新的训练样本,只要目标被预测有足够的信心,目标模型就可以很容易地更新。通过丢弃最老的样本,我们确保最大内存大小为50。在跟踪过程中,我们通过每20帧执行两次优化器递归来优化目标模型 f f f,或者在检测到干扰峰值时执行一次递归来优化目标模型f。边界框估计使用与[6]中相同的设置。
4. 实验
我们的方法是使用PyTorch在Python中实现的,在单一Nvidia GTX 1080 GPU上以57帧/秒的速度执行ResNet-18主干,以43帧/秒的速度执行ResNet-50主干。补充材料中提供了详细的结果(章节S3-S6)。
4.1 方法分析
在这里,我们对所提出的模型预测架构进行了广泛的分析。实验在包含整个OTB-100[43]、NFS (30 FPS版本)[12]和UA V123[26]数据集的组合数据集上进行。这个汇集的数据集包含323个不同的视频,以实现彻底的分析。跟踪器的评估使用AUC[43]度量。由于跟踪器的随机性,我们总是报告超过5次运行的平均AUC分数。我们采用ResNet-18作为主干网进行分析。
优化器模块的影响:我们比较了我们提出的方法,利用了基于SD的架构,以及两种可选的方法。Init:在这里,我们仅使用初始化器模块来预测最终的目标模型,这对应于在我们的方法中删除优化器模块。因此,与Siamese方法类似,模型预测只使用目标的外观信息,而不使用背景信息。GD:在这种方法中,我们用(3)中使用学习系数明智步长的方法的梯度下降(GD)算法来代替最陡下降。所有网络都使用相同的设置进行训练。分析结果如表1所示。
初始化器网络预测的模型只使用目标信息,AUC得分为58.2%。梯度下降法可以有效地利用背景信息,其AUC得分为61.6%。这突出了在模型预测中使用区分学习的重要性。我们最陡的下降方法获得了最好的结果,比GD性能好2.2%。这是由于最速下降的优越收敛特性,对于离线学习和快速在线跟踪很重要。
模型预测架构分析:在此,我们分析了所提出的鑑别式在线学习架构的关键方面的影响,并逐一增加它们。结果如表2所示。基线SD构成了我们最陡峭的基于下降的优化器模块,以及在ImageNet上训练的固定ResNet-18网络。也就是说,类似于目前最先进的鉴别方法,我们没有微调主干。我们在优化器模块中使用回归误差(8),而不是学习判别损失。这种基线方法的AUC得分为58.7%。通过添加模型初始化模块(+Init),我们在AUC得分上获得了1.3%的显著提高。进一步训练整个网络,包括主干特征提取器,(+FT)导致了2.6%的AUC分数的重大提高。这说明了学习适合通过端到端学习跟踪的专门特性的优势。使用额外的卷积块来提取特定分类特征(+Cls), AUC分数进一步提高了0.7%。最后,学习了第3.4节中所述的判别损失(2)本身(+损失),使AUC评分又提高了0.5%。这显示了通过最大化模型在未来框架上的泛化能力来学习隐含在线损失的好处。
在线模型更新的影响:这里,我们分析在线更新目标模型的影响,使用之前跟踪帧的信息。我们比较了三种不同的模型更新策略。i)无更新:跟踪过程中模型没有更新。相反,我们的模型预测器D在第一帧中预测的模型被用于整个序列。ii)模型平均:在每一帧中,使用当前模型和新预测模型的线性组合更新目标模型,这是跟踪中常用的方法[15,18,41]。iii)我们的:利用在线构建的训练集得到目标模型,如第3.7节所述。模型平均未能改善基线方法没有更新(见表3)。相比之下,我们的方法获得显著获得约2%的AUC得分超过两种方法,表明我们的方法可以有效地适应目标模型的在线。
…
…
…
5. 结论
我们提出了一种以端到端方式离线训练的跟踪架构。我们的方法是由一个判别学习损失应用迭代优化程序。通过使用最陡峭的基于下降的优化器和有效的模型初始化器,我们的方法只需几个优化步骤就可以预测出一个功能强大的模型。此外,我们的方法通过最小化不可见测试框架上的预测错误来学习判别损失。我们的方法设置了6个新的最先进的跟踪基准,同时运行在40帧/秒以上。致谢:这项工作得到了ETH普通基金(OK)和英伟达的硬件资助。