Learning a Neural Solver for Multiple Object Tracking 论文简读

最新推荐文章于 2025-12-05 14:28:34 发布

原创最新推荐文章于 2025-12-05 14:28:34 发布 · 2.7k 阅读

15 ·

CC 4.0 BY-SA版权

文章标签：

#神经网络 #深度学习 #计算机视觉

前言

该论文提出了一个基于图神经网络的离线多目标跟踪方法。
本文的方法能够同时学习不同帧之间检测的成本计算以及匹配。
达到了超越tracktor的sota效果。

贡献

提出了一个基于信息传递网络的多目标跟踪解决器，利用问题的自然图结构来同时执行特征性学习和结果预测。
提出了一个新奇的时间感知的神经信息传递更新过程，这受启发于多目标跟踪的经典图公式化。
我们显示了方法在三个公开基准上明显改善的sota结果。

跟踪流程

图构建：给定一个视频中目标检测的集合，构建一个图，其中节点对应了检测，边对应检测之间的连接。
特征编码：在边界框图像上应用一个卷积神经网络，初始化节点的外观特征嵌入。对于每一条边也就是不同帧的每一对检测，我们计算一个具有编码了他们的边界框之间的相对大小，位置以及时间差的特征的向量。然后将其输入到一个多层感知器中得到边的几何嵌入。
神经信息传递：我们在整个图上执行了一系列的信息传递步骤。直觉上，对于每一轮的信息传递，节点会与他们的连接边分享外观信息，边会与他们的伴随节点分享几何信息。最后，能够获得节点和边的更新嵌入信息，其包含了依赖于整个图结构的高阶信息。
利用模型对最后的边嵌入预测一个目标流变量的连续近似。然后，遵循一个简单的范式对他们进行四舍五入，获得最终的跟踪轨迹。

图构建

在基于检测的跟踪范式中，给定目标检测集合 $O=\{o_1,o_2,..., o_n\}$ 作为输入，其中 $n$ 表示了视频中所有帧的目标总数，每个节点被表示为 $o_i=(a_i,p_i,t_i)$ ，其中 $a_i$ 表示了边界框里未加工像素， $p_i$ 了检测的2D图像坐标， $t_i$ 表示了帧数。跟踪轨迹被定义为具有时间顺序的目标检测集合 $T_i=\{o_{i_1},..., o_{i_{n_i}}\}$ ，其中 $n_i$ 是形成轨迹 $i$ 的检测的数量。多目标跟踪的任务就是找到这样一个跟踪轨迹集合 $T_*=\{T_1,...,T_m\}$ 能够最好的解释给定的检测集。
这个问题被建模成一个无向图 $G = (V, E)$ ，其中 $V:=\{1,...,n\}$ ， $E⊂V×VE\subset V\times V$ ，每一个节点 $i⊂Vi\subset V$ 代表了一个独立的检测 $oi⊂Oo_i\subset O$ 。对不同帧的每对检测构建一条边 $E$ ，允许恢复有丢失检测的跟踪轨迹（对匹配且不在连续帧上的检测进行插值）。将给定检测集划分为跟踪轨迹的任务能够被视为将图中节点分组为不连续的组分。场景中的每个跟踪轨迹 $T_*=\{T_1,...,T_m\}$ 能够被映射到图中的一组节点 ${i_1,...,i_{n_i}\}$ 。
对图中的每条边引入了一个二元变量，如果某些边连接了属于同一条跟踪轨迹且在同一条跟踪轨迹上是时间连续的节点，那么其标签为1，否则为0。跟踪轨迹也能被表示为边的集合 ${(i1,i2),...,(ini−1,in)}⊂E\{(i_1,i_2),...,(i_{n_i-1}, i_n)\}\subset E$ ，对于不同时间戳上的每对节点 $(i,j)∈E(i,j)\in E$ ，定义二元变量 $y_{(i,j)}$ 如下： $y(i,j):={1∃Tk∈T∗s.t.(i,j)∈Tk0otherwisey_{(i,j)}:=\left\{ \begin{aligned} 1 &\quad \exists T_k\in T_*s.t.(i,j)\in T_k \\ 0 &\quad otherwise\\ \end{aligned} \right.$
当 $y_{(i,j)}=1$ 的时候边 $(i, j)$ 被视为激活状态。因为每条跟踪轨迹是节点不相交的，即一个节点不会属于超过一个跟踪轨迹，因此 $y_{(i,j)}=1$ 满足两个线性约束，对于每个节点 $i∈Vi\in V$ : $ti>tjy(j,i)≤1\sum_{(j,i)\in E \ s.t. \ t_i>t_j}y_{(j,i)}\leq 1$ $ti<tky(i,k)≤1\sum_{(i,k)\in E \ s.t. \ t_i<t_k}y_{(i,k)}\leq 1$
这个不等式是流守恒约束的简化版本，强制了每个节点只能与最多一个过去帧的节点以及最多一个未来帧的节点相连。
为了实现图划分，该论文提出直接学习预测图中的哪条边被激活，即边上的二元变量的最终值，为此我们将这个任务视为边上的二分类任务，标签就是二元变量值 $y$ 。总之，我们利用经典网络流公式化将多目标跟踪视为一个完全可学习的任务。

特征嵌入

外观嵌入：利用一个表示为 $N_v^{enc}$ 的卷积网络直接从RGB数据上提取一个特征嵌入。对于每个检测 $oi∈Oo_i\in O$ 以及对应的图像块 $a_i$ ，我们通过计算 $h_i^{(0)}:=N_v^{enc}(a_i)$ 获得 $o_i$ 对应的节点嵌入。
几何嵌入：对于时间戳 $ti≠tjt_i\neq t_j$ 的检测 $o_i$ 和 $o_j$ ，我们利用其边界框坐标 $x_i,y_i,h_i,w_i)$ 以及 $x_j,y_j,h_j,w_j)$ 计算其相对距离和大小： $(2(xi−xj)hi+hj,2(yi−yj)hi+hj,loghihj,logwiwj)(\frac{2(x_i-x_j)}{h_i+h_j},\frac{2(y_i-y_j)}{h_i+h_j},log\frac{h_i}{h_j}, log\frac{w_i}{w_j})$ 我们然后将这个特征向量与时间差 $t_j-t_i$ 以及相对外观 $N_v^{enc}(a_j)-N_v^{enc}(a_i)||$ 相连接，然后输入到一个神经网络 $N_e^{enc}$ 来获得初始边嵌入 $h_{(i,j)}^{(0)}$ 。

信息传递步骤

信息传递网络

让 $G = (V, E)$ 表示图， $h_i^{(0)}$ 表示每个节点 $i∈Vi\in V$ 的节点嵌入， $h_{(i,j)}^{(0)}$ 表示每个边 $(i,j)∈E(i,j)\in E$ 的边缘嵌入，信息传递网络的目标是在整个图上传播包含在节点和边特征变量的信息。
信息传递步骤被划分为两个步骤：一个是从节点到边 $(v→e)(v\rightarrow e)$ ，另一个是从边到节点 $(e→v)(e\rightarrow v)$ ，这个更新步骤连续执行一个固定步数 $L$ ，对于每一个信息传递步骤 $\in \{1,..., L\}$ ，通常形式的更新如下： $hi(l)=Φ({m(i,j)(l)}j∈Ni)\begin{aligned}&(v\rightarrow e)\quad h_{(i,j)}^{(l)}=N_e([h_i^{(l-1)},h_j^{(l-1)}, h_{(i,j)}^{(l-1)}])\\ &(e\rightarrow v)\quad m_{(i,j)}^{(l)}=N_v([h_i^{(l-1)},h_{(i,j)}^{(l)}])\\ &\qquad \ \ \ \ \ \ \ \ \ h_i^{(l)}=\Phi(\{m_{(i,j)}^{(l)}\}_{j\in N_i})\end{aligned}$ 其中 $N_e$ 和 $N_v$ 代表了可学习的函数， $[.]$ 表示了连接操作， $Ni∈VN_i\in V$ 表示了 $i$ 的邻域节点， $Φ\Phi$ 表示了一个顺序不变的操作，即累加、最大值或者平均值。在 $L$ 次信息传递步骤之后，每个节点包含了图中距离 $L$ 处的所有节点的信息。因此， $L$ 代表了一个和卷积神经网络中接受域类似的角色，允许嵌入能够捕获检测相邻帧的信息。

时间感知的信息传递

我们将信息传递过程中的边临时嵌入 $m_{(i,j)}^{(l)}$ 划分为两个部分，其中一个来自过去帧的节点，另一个来自未来帧的节点。我们将与 $i$ 相邻的来自过去帧和未来帧的节点分别表示为 $N_i^{fut}$ 和 $N_i^{past}$ 。同时，我们也定义了两个不同的多层感知器，即 $N_v^{fut}$ 和 $N_v^{past}$ 。在每一个信息传递步骤 $l$ ，对于每一个节点 $i∈Vi\in V$ ，我们首先对 $i$ 分别计算来自过去和未来的所有邻域节点的边临时嵌入 $m_{(i,j)}$ ：
$m(i,j)(l)={Nvpast([hi(l−1),h(i,j)(l),hi(0)])ifj∈NipastNvfut([hi(l−1),h(i,j)(l),hi(0)])ifj∈Nifutm_{(i,j)}^{(l)}=\{ \begin{aligned} &N_v^{past}([h_i^{(l-1)},h_{(i,j)}^{(l)},h_i^{(0)}])\quad if \quad j\in N_i^{past}\\ &N_v^{fut}([h_i^{(l-1)},h_{(i,j)}^{(l)},h_i^{(0)}])\quad if \quad j\in N_i^{fut} \end{aligned}$ 其中初始嵌入 $h_{(i)}^{(0)}$ 被添加到计算之中。我们根据这些节点是节点 $i$ 的过去节点还是未来节点来分别合并这些临时嵌入： $hi,past(l)=∑j∈Nipastm(i,j)(l)h_{i,past}^{(l)}=\sum_{j\in N_i^{past}}m_{(i,j)}^{(l)}$

$hi,fut(l)=∑j∈Nifutm(i,j)(l)h_{i,fut}^{(l)}=\sum_{j\in N_i^{fut}}m_{(i,j)}^{(l)}$
获得了过去特征嵌入 $h_{i,past}^{(l)}$ 和未来特征嵌入 $h_{i,fut}^{(l)}$ 之后，我们将其进行连接，然后输入到最后一个多层感知器 $N_v$ 中，获得最终的更新后的节点特征嵌入:
$h_i^{(l)}=N_v([h_{i,past}^{(l)},h_{i,fut}^{(l)}])$