1. Introduction
目前的跟踪器可以分为两大类: 1.第一类是基于相关滤波 :通过利用循环特性在傅里叶域训练一个回归器,能够在线跟踪并更新滤波器参数。近来一些相关滤波算法通过使用深度特征来提高精度,但在滤波器更新是严重降低了速度。 2.另一类方法是使用非常强大的深度特征 ,此类方法不更新模型,所以性能没有相关滤波好。 本文提出的SiamRPN是离线训练好的基于深度特征的跟踪器,并取得了比目前最先进相关滤波方法更优的性能。SiamRPN由模板分支和检测分支组成 ,用端到端的方法在大规模的图像对上进行离线训练。不同于标准的RPN,本文使用两个分支的相关特征图来提取候选区域。由于跟踪任务不区分类别,所以作者将模板分支上的目标外观信息编码到RPN特征中来判别前景和背景。 贡献可总结为以下三点: 1.提出了孪生区域建议网络,能够利用ILSVRC和Youtube-BB大量的数据进行离线端到端训练。 2.在线跟踪时,将proposed framwork
视为单目标的检测任务,这使得可以不用高耗时的多尺度测试就能精确的候选区域。 3.在VOT2015, VOT2016 and VOT2017的实时比赛中达到了最优性能,并且可达到160FPS,同时具有精度的效率的优势。
2. Related Works
2.1 RPN in detection
RPN是在Faster R-CNN提出来的,后来Faster R-CNN的变种如FPN利用特征金字塔来提高小目标检测的性能。
2.2 One-shot learning
最常见的例子就是人脸检测,只知道一张图片上的信息,用这些信息来匹配出要检测的图片,这就是单样本检测,也可以称之为一次学习。
3. Siamese-RPN framework
Siamese-RPN由提取特征的Siamese子网络和区域生成的候选区域子网络组成。
3.1 Siamese feature extraction subnetwork
网络基于AlexNet 该子网络由模板分支和检测分支组成:模板分支将历史帧的目标块作为输入,用
z
z
z 表示;检测分支用当前帧的目标块作为输入,用
x
x
x 表示。两个网络共享CNN参数,用
φ
(
z
)
\varphi(z)
φ ( z ) 和
φ
(
x
)
\varphi(x)
φ ( x ) 表示网络输出。
3.2 Region proposal subnetwork
该子网络由分类分支和回归分支组成,分类分支输出有
2
k
2k
2 k 个channels(前景和背景),回归分支有
4
k
4k
4 k 个channels(
x
,
y
,
w
,
h
x,y,w,h
x , y , w , h ),其中
k
k
k 表示anchors,即每个位置预测框的个数。 分类分支使用cross-entropy损失,回归分支使用Faster R-CNN中的smooth
L
1
L1
L 1 损失。
3.3 Training phase:End-to-end train Siamese-RPN
sample pairs:从ILSVRC随机间隔帧和Youtube-BB连续帧提取 Siamese子网络首先在ImageNet上进行预训练,然后用SGD对Siamese-RPN进行端到端训练 由于在跟踪任务中相邻帧间的变化不会太大,所以选用的anchors个数比检测任务要少。只选用了一个尺度的5种不同宽高比
[
0.33
,
0.5
,
1
,
2
,
3
]
[0.33,0.5,1,2,3]
[ 0 . 3 3 , 0 . 5 , 1 , 2 , 3 ] 正样本:IOU
>
0.6
>0.6
> 0 . 6 ,负样本:IOU
<
0.3
<0.3
< 0 . 3 对每个样本对限制最多16个正样本和总共64个样本
4. Tracking as one-shot detection
4.1 Formulation
平均损失
L
\mathcal L
L
(1)
m
i
n
W
=
1
n
∑
i
=
1
n
L
(
ζ
(
φ
(
x
i
;
W
)
;
φ
(
z
i
;
W
)
)
,
ℓ
i
)
\underset{W}{min}=\frac{1}{n}\sum^n_{i=1}\mathcal L(\zeta(\varphi(x_i;W);\varphi(z_i;W)),\ell_i)\tag{1}
W m i n = n 1 i = 1 ∑ n L ( ζ ( φ ( x i ; W ) ; φ ( z i ; W ) ) , ℓ i ) ( 1 ) 1.
W
W
W 训练的网络权重 2.
φ
\varphi
φ 表示Siamese子网络 3.
L
\mathcal L
L 表示 RPN子网络 4.
n
n
n 表示样本对数 5.
ℓ
i
\ell_i
ℓ i 表示样本标签
4.2 Inference phase:Perform one-shot detection
模板分支在初始帧得到的输出作为检测分支的卷积核 ,然后在整个跟踪过程中固定不变。
4.3 Proposal selection
直接丢弃距中心太远的BB,如下图所示,丢弃大于7的BB 用余弦窗和尺度变化惩罚来对proposal进行排序,选最好的。余弦窗是为了抑制距离过大的,尺度惩罚是为了抑制尺度大的变化。 非极大值抑制(NMS)
5. Experiments
5.1 Implementation details
5.2 Result on VOT2015
5.2 Result on VOT2016
5.4 Result on VOT2017
6. 与baseline–SiamFC对比
视觉跟踪领域主流的实时跟踪方法是以SiameseFC为代表的孪生网络结构,Siamese FC网络非常简单,通过相同的网络提取出图像的特征,通过类似卷积的相关操作方法,可以快速的实现模板与搜索区域中的17x17个小图像进行比对,输出的17x17的响应图,相当于每个位置和模板帧的相似度。但SiameseFC有以下缺陷:首先由于没有回归,网络无法预测尺度上的变化 ,所以只能通过多尺度测试来预测尺度的变化,这里会降低速度。其次,输出的相应图的分辨率比较低,为了得到更高精度的位置,Siamese FC采用插值的方法,把分辨率放大16倍,达到与输入尺寸相近的大小。 SiameseRPN通过引入物体检测领域的区域推荐网络(RPN),通过网络回归避免多尺度测试,一方面提升了速度 ,另一方面可以得到更为精准的目标框 ,更进一步,通过RPN的回归可以直接得到更精确地目标位置,不需要通过插值得到最终的结果 。在训练过程中,我们引入了大规模的视频数据集Youtube-BB进行训练,相比较SiameseFC使用的VID数据集,Youtube-BB在视频数量上有大约50倍的提升,这保证了网络能够得到更为充分的训练。
7. 参考
https://blog.youkuaiyun.com/fzp95/article/details/80982201