Learning a Neural Solver for Multiple Object Tracking 论文简读

前言

  1. 该论文提出了一个基于图神经网络的离线多目标跟踪方法。
  2. 本文的方法能够同时学习不同帧之间检测的成本计算以及匹配。
  3. 达到了超越tracktor的sota效果。

贡献

  1. 提出了一个基于信息传递网络的多目标跟踪解决器,利用问题的自然图结构来同时执行特征性学习和结果预测。
  2. 提出了一个新奇的时间感知的神经信息传递更新过程,这受启发于多目标跟踪的经典图公式化。
  3. 我们显示了方法在三个公开基准上明显改善的sota结果。

跟踪流程

  1. 图构建:给定一个视频中目标检测的集合,构建一个图,其中节点对应了检测,边对应检测之间的连接。
  2. 特征编码:在边界框图像上应用一个卷积神经网络,初始化节点的外观特征嵌入。对于每一条边也就是不同帧的每一对检测,我们计算一个具有编码了他们的边界框之间的相对大小,位置以及时间差的特征的向量。然后将其输入到一个多层感知器中得到边的几何嵌入。
  3. 神经信息传递:我们在整个图上执行了一系列的信息传递步骤。直觉上,对于每一轮的信息传递,节点会与他们的连接边分享外观信息,边会与他们的伴随节点分享几何信息。最后,能够获得节点和边的更新嵌入信息,其包含了依赖于整个图结构的高阶信息。
  4. 利用模型对最后的边嵌入预测一个目标流变量的连续近似。然后,遵循一个简单的范式对他们进行四舍五入,获得最终的跟踪轨迹。

图构建

  1. 在基于检测的跟踪范式中,给定目标检测集合O={ o1,o2,...,on}O=\{o_1,o_2,..., o_n\}O={ o1,o2,...,on}作为输入,其中nnn表示了视频中所有帧的目标总数,每个节点被表示为oi=(ai,pi,ti)o_i=(a_i,p_i,t_i)oi=(ai,pi,ti),其中aia_iai表示了边界框里未加工像素,pip_ipi了检测的2D图像坐标,tit_iti表示了帧数。跟踪轨迹被定义为具有时间顺序的目标检测集合Ti={ oi1,...,oini}T_i=\{o_{i_1},..., o_{i_{n_i}}\}Ti={ oi1,...,oini},其中nin_ini是形成轨迹iii的检测的数量。多目标跟踪的任务就是找到这样一个跟踪轨迹集合T∗={ T1,...,Tm}T_*=\{T_1,...,T_m\}T={ T1,...,Tm}能够最好的解释给定的检测集。
  2. 这个问题被建模成一个无向图G=(V,E)G=(V,E)G=(V,E),其中V:={ 1,...,n}V:=\{1,...,n\}V:={ 1,...,n}E⊂V×VE\subset V\times VEV×V,每一个节点i⊂Vi\subset ViV代表了一个独立的检测oi⊂Oo_i\subset OoiO。对不同帧的每对检测构建一条边EEE,允许恢复有丢失检测的跟踪轨迹(对匹配且不在连续帧上的检测进行插值)。将给定检测集划分为跟踪轨迹的任务能够被视为将图中节点分组为不连续的组分。场景中的每个跟踪轨迹T∗={ T1,...,Tm}T_*=\{T_1,...,T_m\}T={ T1,...,Tm}能够被映射到图中的一组节点{ i1,...,ini}\{i_1,...,i_{n_i}\}{ i1,...,ini}
  3. 对图中的每条边引入了一个二元变量,如果某些边连接了属于同一条跟踪轨迹且在同一条跟踪轨迹上是时间连续的节点,那么其标签为1,否则为0。跟踪轨迹也能被表示为边的集合{ (i1,i2),...,(ini−1,in)}⊂E\{(i_1,i_2),...,(i_{n_i-1}, i_n)\}\subset E{ (i1,i2),...,(ini1,in)}E,对于不同时间戳上的每对节点(i,j)∈E(i,j)\in E(i,j)E,定义二元变量y(i,j)y_{(i,j)}y
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值