Online Multi-Object Tracking with Dual Matching Attention Networks论文简读

时空注意力机制的多目标跟踪

最新推荐文章于 2022-03-19 21:43:53 发布

原创最新推荐文章于 2022-03-19 21:43:53 发布 · 699 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉 #机器学习 #人工智能

多目标跟踪专栏收录该内容

1 篇文章

订阅专栏

前言

该论文提出了一种利用时空注意力机制计算检测和跟踪之间亲和度用于数据关联的在线多目标跟踪方法。
在多目标跟踪的数据关联过程中，由于给定的检测存在对准误差或者部分丢失，视频中的目标之间存在相互遮挡，两张图像之间只有部分区域能够匹配上，在计算亲和度时，提高输入的图像对中匹配部分的比重能够增强模型的判别能力，因此作者在计算输入图像对的特征表示时，采用了空间注意力机制强调了图像对中匹配上的部分权重。在计算亲和度时，由于在跟踪轨迹中存在错误检测，采用平均池化得到的特征表示与真实特征表示存在差异，会导致无法有效衡量目标与检测之间的相似度，因此作者提出利用时间注意力机制来自适应地权衡跟踪轨迹中不同样本的权重，以获得更接近真实目标的特征表示，得到更准确的目标与检测之间的相似度。

贡献

提出了一个空间注意力网络来处理多目标跟踪中的噪声检测和阻塞。当对比两个图像的时候，提出的网络能够基于图像对的每一个位置之间的交叉相似度生成对偶空间注意力映射，让模型关注于图像对之间的匹配区域。
设计了一个时间注意力网络自适应地对轨迹中的不同观测分配不同程度的注意力。这个模块不仅考虑了检测和轨迹中观测的相似度，也考虑了所有观测的连续性来过滤掉轨迹中的不可靠样本。
在多目标高跟踪中应用单目标跟踪并引入了一个新奇的基于最先进的跟踪器的成本敏感损失。这个提出的损失让跟踪器能够集中在困难样本稀疏集上进行训练，强化了在多目标跟踪场景中模型对干扰目标的鲁棒性。
在多目标基准数据集上，针对最先进的多目标跟踪方法执行了大量的实验和消融研究来证明了提出的算法的有效性。

跟踪流程

给定检测和跟踪，首先利用单目标跟踪器对标记为跟踪的目标在当前帧的位置进行预测，得到其在当前帧的位置和跟踪得分 $s$ 。然后我们计算该目标在前 $l$ 帧的匹配得分 $o(t_l, D_l)$ ，其中当跟踪目标 $tl∈Tlt_l\in T_l$ 与第 $l$ 帧的检测 $D_l$ 之间的最大重叠率大于超过0.5时， $o(t_l, D_l)$ 被设置为1，否则为0。我们计算前 $L$ 帧匹配得分 ${o(t_l, D_l)\}_1^L$ 的均值 $o_{mean}$ 作为另一个衡量该目标跟踪是否可靠的一个依据。利用下面的公式来更新目标的状态： $omean>τo,lost,otherwisestate=\left\{ \begin{aligned} &tracked, && \quad if \ s>\tau_s \; and \; o_{mean}>\tau_o,\\ &lost, && \quad otherwise\\ \end{aligned}\right.$
对于被标记为跟踪的目标，利用预测位置更新其位置。对于被标记为丢失的目标，首先保持其在最新的 $k - 1$ 帧的边界框的尺度大小，然后使用一个线性运动模型来预测其在当前帧 $k$ 的位置。将 $c_{k-1}=[x_{k-1},y_{k-1}]$ 表示为目标在 $k - 1$ 帧的中心坐标，目标在 $k - 1$ 帧的速度如下计算： $vk−1=1K(ck−1−ck−K)v_{k-1}=\frac{1}{K}(c_{k-1}-c_{k-K} )$ 其中 $K$ 表示了计算速度所需的帧间隔，然后利用 $c~k=ck−1+vk−1\tilde c_k=c_{k-1}+v_{k-1}$ 预测其在当前帧的目标坐标。
给定丢失目标的预测位置，我们选择没有被任何跟踪状态目标覆盖的预测位置周围的检测（距离小于阈值 $τd\tau_d$ ）作为候选检测。然后我们测量候选检测与目标的跟踪轨迹中的观测之间的外观模型亲和度。我们选择具有最高亲和度值的检测，利用阈值 $τa\tau_a$ 判断该丢失目是否被连接到这个检测上。利用上述过程执行丢失跟踪与检测之间的数据关联。

亲和度计算

亲和度计算分为两个步骤，首先利用空间注意力网络（SAN）计算目标与检测之间的注意力掩膜特征 $xˉα\bar x^{\alpha}$ 以及 $xˉβ\bar x^{\beta}$ ，然后将目标轨迹中的观测与检测的注意掩膜特征对输入到时间注意力网络（TAN）之中得到池化隐藏层表征 $hˉ\bar h$ ，然后利用一个二元分类层来预测检测与目标之间的相似度。

空间注意力网络

空间注意力网络如上图，采用了一种孪生网络的结构。
输入跟踪轨迹中的观测图像以及给定的某个检测图像对，经过一个共享参数的截断的ResNet-50提取图像的特征 $\in R^{H\times W\times C}$ ，将 $X$ 考虑为一个经过 $L^2$ 正则化的 $C$ 维度的特征向量的集合： $X={x1,...,x2},xi∈RCX=\{ x_1, ..., x_2\}, \quad x_i \in R^C$ 其中， $N=H×WN=H\times W$ ，每个特征向量对应了特征图映射中的一个空间上的位置。然后我们将从图像对提取的特征映射表示为 $Xα={x1α,...,xNα}X^{\alpha}=\{x_1^{\alpha} , ...,x_N^{\alpha}\}$ 以及 $Xβ={x1β,...,xNβ}X^{\beta}=\{x_1^{\beta} , ...,x_N^{\beta}\}$ 。我们通过 $Sij=(xiα)TxjβS_{ij}=(x_i^{\alpha})^Tx_j^{\beta}$ 计算每个 $xiαx_i^{\alpha}$ 以及 $xjβx_j^{\beta}$ 之间的cosine相似度，利用以下公式来计算相似度矩阵 $S∈RN×NS\in R^{N\times N}$ : $S=[(x1α)T⋮(xNα)T].[x1β,...,xNβ]=[(s1)T⋮(sN)T],S=\left [ \begin{aligned} &(x_1^{\alpha})^T\\ &\vdots\\ &(x_N^{\alpha})^T\\ \end{aligned} \right].[x_1^{\beta},..., x_N^{\beta}]=\left [\begin{aligned} &(s_1)^T\\ &\vdots\\ &(s_N)^T\\ \end{aligned}\right],$ 其中每个向量 $si=[Si1,...,SiN]T∈RNs_i=[S_{i1}, ..., S_{iN}]^T\in R^N$ 包含了 $S$ 中第 $i$ 行的元素，表示了 $xiα∈Xαx_i^{\alpha}\in X^{\alpha}$ 与 $XβX^{\beta}$ 中所有的特征向量之间的cosine距离。将 $S$ 重置成一个形状为 $\times W \times N$ 的特征立方体 $Xsα∈RH×W×NX_s^{\alpha}\in R^{H\times W\times N}$ 作为特征映射 $XαX^{\alpha}$ 的相似度表征，然后将 $XsαX_s^{\alpha}$ 输入到一个核为 $1×11\times 1$ 的卷积层中，再在输出上应用一个 $s o f t m a x$ 得到 $XαX^{\alpha}$ 注意力映射 $Aα∈RH×WA^{\alpha}\in R^{H\times W}$ ，其中 $AαA^{\alpha}$ 中的注意力值 $aiαa_i^{\alpha}$ 定义如下： $aiα=exp(θsTsi)Σi=1Nexp(θsTsi),a_i^{\alpha}=\frac{exp(\theta^T_s s_i)}{\Sigma_{i=1}^{N}exp(\theta^T_s s_i)},$ 其中 $θ∈RN\theta\in R^{N}$ 表示了核为 $1×11\times1$ 的卷积层的权重，最后采用如下公式获得了注意力掩膜特征 $xˉα∈RC\bar x^{\alpha} \in R^{C}$ ： $xˉα=∑i=1Naiαxiα.\bar x^{\alpha}=\sum^{N}_{i=1}a_i^{\alpha}x^{\alpha}_i.$ 对于特征映射 $XβX^{\beta}$ ，我们将距离矩阵 $S$ 转置成 $S^{T}$ ，然后以相同的方式得到其注意力掩膜特征 $xˉβ∈RC\bar x^{\beta} \in R^{C}$ 。然后将得到的 $xˉα\bar x^{\alpha}$ 和 $xˉβ\bar x^{\beta}$ 连接起来，输入到输出通道为512的全连接层中得到结合特征 $xc∈R512x^{c}\in R^{512}$ 。

时间注意力网络

时间注意力网络如上图，采用了Bi-LSTM的来构建网络。
将利用跟踪轨迹中的观测与检测对输入到空间注意力网络中得到的结合特征集 ${x_1^c,...x_T^c\}$ 输入到时间注意力网络中，再在输出上添加一个 $s o f t m a x$ 层预测跟踪轨迹中每个观测对应的注意力值： $at=exp(θhT[htl;htr])Σt=1Texp(θTh[htl;htr]),t=1,...,Ta_t=\frac{exp(\theta^T_h[h_t^l;h^r_t])}{\Sigma^T_{t=1}exp(\theta_T^h[h^l_t;h^r_t])},t=1, ..., T$ 其中 $htlh^l_t$ 和 $htrh^r_t$ 表示Bi-LSTM的隐藏层表示， $θh\theta_h$ 表示Bi-LSTM的输出层的权重。在特征池化的时候，每个观测的隐藏层表示由 $a_t$ 进行权衡，池化隐藏层表征计算公式如下： $hˉ=∑i=1Tat[htl;htr].\bar h=\sum^T_{i=1}a_t[h_t^l;h_t^r].$ 得到池化隐藏层表征 $hˉ\bar h$ 之后，将其输入到二元分类层中来预测目标跟踪轨迹中的观测与检测之间的相似度得分。

跟踪轨迹管理

对于跟踪轨迹的初始化，我们设置一个阈值 $τi\tau_i$ ，如果目标被标记为丢失或者前 $τi\tau_i$ 帧中某一帧的该目标没有被任何检测所覆盖，则丢失该目标。
对于跟踪轨迹的终止，我们会终止掉超过 $τt\tau_t$ 帧都是丢失状态或者从视野中消失的目标对应的跟踪轨迹。
我们通过从收集的M个最近观测样本中均匀采样，生成 $T$ 长度的跟踪轨迹用于数据关联，以减少冗余。