文章目录
摘要
Multi-Target Multi-Camera Tracking(MTMCT,多目标多摄像头跟踪),跟踪多个摄像头拍摄下的多个人。Person Re-Identification(Re-ID,行人再识别)从一组图片中检索出与搜索图片相似的人。本文使用卷积神经网络来为MTMCT和ReID进行特征学习。贡献包括为训练设计的自适应三元损失目标函数和难例挖掘的新方法。
引言
目标是在多个摄像头的视频流中确定每个行人的位置。为了节约成本,通常摄像头视域不重叠。这导致了长时间的遮挡,以及不同视野中视角和光照的巨大变化。此外,通常不提前知道人数,而且要处理的数据量非常大。Re-ID目标是从一列行人快照中计算与检索人(query)的相似度,并降序排序。
两个任务很相似。Re-ID是对与目标距离排序,MTMCT是判定一对检测结果或图片是否为同一目标。两个任务使用不同评价指标:Reid,排列性能 ;MTMCT,分类错误率 。
理想情况是,reid的loss应当确保对于任意一张(any query)查询图片a来说,图片a与身份相同的特征之间的最大距离要小于图片a与其它目标的特征之间的最小距离。这可以确保,对于任意给定的查询图片,可以得到正确的特征排列。 MTMCT的loss应当确保:任意两个身份相同的特征之间的最大距离要小于任意两个不同身份的特征之间的最小距离。这样在同一种身份和不同种身份的距离之间就有一个间隔。MTMCT要求能区分任意特征对,要求更高,所以0-MTMCT loss意味着0-reid loss,但反过来不行。
使用所有特征对作为输入训练成本很高,并且身份对的数量和不同身份对的数量(超级多)很不平衡。本文提出一个Re-ID类型的三元损失函数,训练过程基于难例挖掘。
为了把特征用于MTMCT,提出了一个pipeline。
pipeline流程:
给定视频流,用行人检测器从视频中提取Bbox。为进行轨迹推断,特征提取器要从观测中提取运动特征和外观特征。这些特征将被轮流转换成相关性,并且会用相关聚类优化的方式打上标签。最后做一些后处理的工作:对漏检插值和去除低置信度的轨迹。多阶段推理为轨迹片段、单摄像头和多摄像头轨迹,重复进行了轨迹推理的过程。
在训练时,检测器被单独训练。特征损失会惩罚那些产生错误相关的特征。 在测试时,采用了一种基于相关聚类的数据关联算法,将观测分到不同的身份组。为降低计算复杂性,在跟踪器中采用了标准的分层推理和滑动时间窗口的技术。当训练时,并没有包含相关聚类。而是假设:高质量的外观特征可以产生好的聚类结果,只训练这些特征就行了。实验结果也证明了这一假设。主要贡献 :
1.提出一种自适应权重的三重损失,准确且稳定,这点与固定权重的变量不同。
2.出一种代价不高的艰难身份挖掘模式,可以帮助学到更好的特征。
3.关于tracking和ranking的准确度之间的关系,提出新的见解
4.我们的特征在MTMCT和reid任务上产生了极好的结果
作者:sunshine芝火
来源:优快云
原文:https://blog.youkuaiyun.com/sunshinezhihuo/article/details/80524673
相关工作
略
方法
记输入为
n
n
n个不同摄像头采集的
n
n
n个视频集
V
=
{
V
1
,
V
2
,
.
.
.
,
V
n
}
V = \{V_1,V_2,...,V_n\}
V={V1,V2,...,Vn},ground truth 是一组真实的轨迹
T
=
{
T
1
,
T
2
,
.
.
.
,
T
l
}
T=\{T_1,T_2,...,T_l\}
T={T1,T2,...,Tl}MTMCT可以看作是一个有监督的学习问题,寻找函数
f
(
Θ
,
V
)
f(\Theta,V)
f(Θ,V)最优的参数
Θ
∗
\Theta^*
Θ∗以尽可能的估计真实的轨迹。
Θ
∗
=
arg
min
Θ
L
(
f
(
Θ
,
V
)
,
T
)
(
1
)
\Theta^*=\mathop{\arg\min}\limits_{\Theta}\mathcal{L}(f(\Theta,V),T)\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ (1)
Θ∗=ΘargminL(f(Θ,V),T) (1)
通过对于同一身份的样本对标注相关性为正,对于不同身份的样本对把相关性标注为负避免组合优化的复杂性。目的是在训练时能学习到生成良好的相关性的特征。训练期间另一个困难是模型深度,因为权重可能无法更新至较早层,所以本文的方法将检测与关联分开。
学习外观特征
在标记完成的一组行人数据集中,使用自适应权重的三元损失函数学习外观特征。对于一个样本
x
a
x_a
xa,和相应的正负样本
x
p
∈
P
(
a
)
,
x
n
∈
N
(
a
)
x_p \in P(a), x_n \in N(a)
xp∈P(a),xn∈N(a)三元损失函数为:
L
3
=
[
m
+
∑
x
p
∈
P
(
a
)
w
p
d
(
x
a
,
x
p
)
−
∑
x
n
∈
N
(
a
)
w
p
d
(
x
a
,
x
n
)
]
+
(
2
)
L_3 = [m + \sum_{x_p \in P(a)}w_pd(x_a,x_p)-\sum_{x_n \in N(a)}w_pd(x_a,x_n)]_+\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ (2)
L3=[m+xp∈P(a)∑wpd(xa,xp)−xn∈N(a)∑wpd(xa,xn)]+ (2)
d
d
d为样本间的外观距离,
[
⋅
]
+
=
max
(
0
,
⋅
)
[\centerdot]_+=\max(0,\centerdot)
[⋅]+=max(0,⋅)这个损失函数有两个函数,首先,它避免了三元组的产生过程,因为对于一个样本,
L
3
L_3
L3计算正负样本间的所有距离,使用了所有的样本,也就不用生成三元组了,这样产生的问题就是如何权衡所有样本的重要性。其次,之前指出的正负样本数量间的不平衡问题可以通过权重
w
p
,
w
n
w_p,w_n
wp,wn的分布来反映。
Hermans et al [35] and Mischuk et al [54]提出一种batch-hard triplet loss来确定权重,
这样
w
n
,
w
p
∈
{
0
,
1
}
w_n,w_p \in \{0,1\}
wn,wp∈{0,1},也就是只考虑与样本距离最远的正样本和距离最近的负样本。一方面,均匀分布的权重消除了难样本的重要性,使batch-hard triplet loss表现更好,但均匀分布的权重鲁棒性更好,因为outlier(离群点)不会影响权重。本文设计出一个自各应的权重,使之能够实现高准确度,与此同时,训练也稳定。公式3和公式4把全部的权重分配给最艰难的正样本和负样本,这样的话,忽视了其他的正样本和负样本,即只计算最难的正负样本的损失。
通过公式5,可以看出距离越远的正样本,
w
p
w_p
wp权重最大,距离越近的负样本
w
n
w_n
wn越大。这种自适应权重,对于简单的样本给很少的权重(重要性),而比较重视最难区分的样本。当在一个batch中出现一些艰难的样本时,这些样本对于权重将会有公正的分享。 自适应权重是很有用的,当一个batch中最难的样本是一个离群点时,还可以从其他难区分样本中学习。实验也证明了自适应权重的有利属性。
训练时使用PK batch。在一个batch中有P个不同人(identities),每个identity有K个样本(这K个样本都是该identity)。对于每个identity,从K个样本中随机采样作为query,并选择正样本,从剩下的P-1个identity中随机选择负样本,构造一组数据计算损失用于训练。问题是当数据增多时,难以选择到难的负样本,即于目标相似的其它identity。为了更好地提取外观特征,增加选到难负样本的概率。构造两个集合,hard identity pool,random identity pool,hard identity pool 是H个与给定query 难区分的难identity(包括正负样本),random identity pool由剩余其它identity的样本组成。采样时从这两个集合中等概率采样。增加选到难负样本的概率。
MTMC Tracker
本文方法中,跟踪器首先计算所有observations观察的特征,再评估所有特征对间的相关性,并使用相关聚类correlation clustering 为observation赋 于identiy身份。后处理包括插值与剪枝。
Detector
使用OpenPose,能学习到身体部位body part间的相似性,并使用贪心组合部位part affinities 相似性解析边框
Appearence Features
使用ImageNet 上预训练的Resnet50模型,在pool5层后面接了一个带有1024个单元的dense layer,BN和Relu。另一个dence layer产生了128维的外观特征。用自适应权重 the adaptive weighted triplet loss,数据增强,难例挖掘的方法训练模型。 两个检测结果detection间的相似性为:
μ
p
,
μ
n
\mu_p,\mu_n
μp,μn分别是训练对中正样本,负样本距离均值。
Motion Correlation
使用线性模型预测运动相关性。计算前后向误差forward-backward
,前向误差是当前帧预测下一帧的误差,反向误差相反。在训练时学习一个分离参数
t
m
t_m
tm能够把正负例分开的阈值,和一个能够把错误转换成相关性的尺度因子
α
\alpha
α。
Optimization
相似度矩阵结合外观和运动信息
D矩阵收集外观相关性和运动相关性,可以随着观测间隔时间距离的增大,把相关性衰减到0。确保具有一定时间间隔的轨迹进行关联,确保距离时间长的匹配之间有一个正相关的关联链。
根据相关性矩阵,得到图G,两个节点
v
i
,
v
j
v_i,v_j
vi,vj是否相关用变量
x
i
j
x_{ij}
xij说明。相关聚类问题为:
目标函数说明解使得约束下权重之和最大,即相关性最高。约束条件确保不相关的节点
i
,
i,
i,间必有断开处,如果
x
i
k
=
0
x_{ik}=0
xik=0则
x
i
j
+
x
j
k
<
=
1
x_{ij} + x_{jk} <= 1
xij+xjk<=1,说明
x
i
j
+
x
j
k
x_{ij} + x_{jk}
xij+xjk中至少一个为0,不相关的节点
i
,
i,
i,间必有断开处。
Multi-Level Reasoning
通过在3个层次上进行分层推理,降低了计算负担。
第一层:计算一秒长one-second long tracklets。
第二层:把轨迹片段tracklets关联成单摄像头下的长轨迹。
第三层:把单摄像头的长轨迹关联成多摄像头轨迹
Experiments
Benchmarks
DukeMTMC DukeMTMC-ReId Market-1501
参考
博客:Features for Multi-Target Multi-Camera Tracking and Re-identification