通过Lifted Muliticut和行人重识别进行多行人跟踪
1. 摘要
多行人跟踪中,遮挡处理和person re-identification是比较重要的。
本文的创新点:
1、 将multi-persontracking问题看成最小化代价lifted multicut问题。在regular edges的基础上引入lifted edges。
2、 设计并训练融合行人人体姿势信息的深度神经网络来进行行人重识别。这样能够通过外表特征更加准确的识别同一人。将时间上较远的人关联起来,并允许它们将遮挡之前和之后对应起来。
这两个创新点分别在2,3章节中详细讨论。
2. 模型
将多行人跟踪数学抽象成MP、LMP问题。是一种基于图的分解/聚类问题。
MP:the minimum cost muticut problem. LMP: minimum cost lifted muticutproblem.
图中,v表示在帧中检测到的行人,实线表示joint (两个v可以认为是同一个行人),虚线表示cut (认为是两个不同的行人),黑线表示regular edge,绿线表示lifted edge,线上数字表示cut对应边的代价。
a,b场景中有三个不同的目标人,其中v1是单独的目标,v2、v3是同一目标,v4是单独目标。v1和v4在时间上相聚较远,MP错误的将v1,v4认为是同一人,而LMP通过lifted edge连接v1,v4,由于local edges不支持长距离的joint,所以这条lifted edge被cut。
c,d场景中v1,v2,v3,v4来自同一目标人。由于遮挡等问题,MP错误的将v1,v2,v3,v4认为是三个目标,而LMP通过lifted edge连接v1,v4,并认为v1和v4是一个confident observation,cut的代价很高,最终正确认为所有的v来自同一目标人。
2.1 参数
a)有限集V表示在一幅图像中的一个目标检测,即跟踪框。对于每个目标检测v∈V,它的高度是h_v,中心位置是(x_v,y_v),帧数是t_v。
b)对于每对v,w∈V,条件概率p_vw∈(0,1)表示v,w分属于不同目标的概率。
c)在图G=(V,E)中,每个边都是regular边,表示在相同帧中连接v,w,或者在不同帧但是帧数相近中连接v,w,并且这个差距存在上界δ_t≥|t_v-t_w |。
d)在图G'=(V,E')中,E⊆E',lifted边{v,w}∈E'\E,表示在不同帧中连接相似的v,w,并且满足|t_v-t_w |≥δ_t和p_vw≤p_0,