Online Multi-Object Tracking with Dual Matching Attention Networks论文简读

时空注意力机制的多目标跟踪

前言

该论文提出了一种利用时空注意力机制计算检测和跟踪之间亲和度用于数据关联的在线多目标跟踪方法。
在多目标跟踪的数据关联过程中,由于给定的检测存在对准误差或者部分丢失,视频中的目标之间存在相互遮挡,两张图像之间只有部分区域能够匹配上,在计算亲和度时,提高输入的图像对中匹配部分的比重能够增强模型的判别能力,因此作者在计算输入图像对的特征表示时,采用了空间注意力机制强调了图像对中匹配上的部分权重。在计算亲和度时,由于在跟踪轨迹中存在错误检测,采用平均池化得到的特征表示与真实特征表示存在差异,会导致无法有效衡量目标与检测之间的相似度,因此作者提出利用时间注意力机制来自适应地权衡跟踪轨迹中不同样本的权重,以获得更接近真实目标的特征表示,得到更准确的目标与检测之间的相似度。

贡献

  1. 提出了一个空间注意力网络来处理多目标跟踪中的噪声检测和阻塞。当对比两个图像的时候,提出的网络能够基于图像对的每一个位置之间的交叉相似度生成对偶空间注意力映射, 让模型关注于图像对之间的匹配区域。
  2. 设计了一个时间注意力网络自适应地对轨迹中的不同观测分配不同程度的注意力。这个模块不仅考虑了检测和轨迹中观测的相似度,也考虑了所有观测的连续性来过滤掉轨迹中的不可靠样本。
  3. 在多目标高跟踪中应用单目标跟踪并引入了一个新奇的基于最先进的跟踪器的成本敏感损失。这个提出的损失让跟踪器能够集中在困难样本稀疏集上进行训练,强化了在多目标跟踪场景中模型对干扰目标的鲁棒性。
  4. 在多目标基准数据集上,针对最先进的多目标跟踪方法执行了大量的实验和消融研究来证明了提出的算法的有效性。

跟踪流程

  1. 给定检测和跟踪,首先利用单目标跟踪器对标记为跟踪的目标在当前帧的位置进行预测,得到其在当前帧的位置和跟踪得分sss。然后我们计算该目标在前lll帧的匹配得分o(tl,Dl)o(t_l, D_l)o(tl,Dl),其中当跟踪目标tl∈Tlt_l\in T_ltlTl与第lll帧的检测DlD_lDl之间的最大重叠率大于超过0.5时,o(tl,Dl)o(t_l, D_l)o(tl,Dl)被设置为1,否则为0。我们计算前LLL帧匹配得分{o(tl,Dl)}1L\{o(t_l, D_l)\}_1^L{o(tl,Dl)}1L的均值omeano_{mean}omean作为另一个衡量该目标跟踪是否可靠的一个依据。利用下面的公式来更新目标的状态:state={tracked,if s>τs  and  omean>τo,lost,otherwisestate=\left\{ \begin{aligned} &tracked, && \quad if \ s>\tau_s \; and \; o_{mean}>\tau_o,\\ &lost, && \quad otherwise\\ \end{aligned}\right.state={tracked,lost,if s>τsandomean>τo,otherwise
  2. 对于被标记为跟踪的目标,利用预测位置更新其位置。对于被标记为丢失的目标,首先保持其在最新的k−1k-1k1帧的边界框的尺度大小,然后使用一个线性运动模型来预测其在当前帧kkk的位置。将ck−1=[xk−1,yk−1]c_{k-1}=[x_{k-1},y_{k-1}]ck1=[xk1,yk1]表示为目标在k−1k-1k1帧的中心坐标,目标在k−1k-1k1帧的速度如下计算:vk−1=1K(ck−1−ck−K)v_{k-1}=\frac{1}{K}(c_{k-1}-c_{k-K} )vk1=K1(ck1ckK)其中KKK表示了计算速度所需的帧间隔,然后利用c~k=ck−1+vk−1\tilde c_k=c_{k-1}+v_{k-1}c~k=ck1+vk1预测其在当前帧的目标坐标。
  3. 给定丢失目标的预测位置,我们选择没有被任何跟踪状态目标覆盖的预测位置周围的检测(距离小于阈值τd\tau_dτd)作为候选检测。然后我们测量候选检测与目标的跟踪轨迹中的观测之间的外观模型亲和度。我们选择具有最高亲和度值的检测,利用阈值τa\tau_aτa判断该丢失目是否被连接到这个检测上。利用上述过程执行丢失跟踪与检测之间的数据关联。

亲和度计算

亲和度计算分为两个步骤,首先利用空间注意力网络(SAN)计算目标与检测之间的注意力掩膜特征xˉα\bar x^{\alpha}xˉα以及xˉβ\bar x^{\beta}xˉβ,然后将目标轨迹中的观测与检测的注意掩膜特征对输入到时间注意力网络(TAN)之中得到池化隐藏层表征hˉ\bar hhˉ,然后利用一个二元分类层来预测检测与目标之间的相似度。

空间注意力网络

空间注意力网络

  1. 空间注意力网络如上图,采用了一种孪生网络的结构。
  2. 输入跟踪轨迹中的观测图像以及给定的某个检测图像对,经过一个共享参数的截断的ResNet-50提取图像的特征X∈RH×W×CX \in R^{H\times W\times C}XRH×W×C,将XXX考虑为一个经过L2L^2L2正则化的CCC维度的特征向量的集合:X={x1,...,x2},xi∈RCX=\{ x_1, ..., x_2\}, \quad x_i \in R^CX={x1,...,x2},xiRC其中,N=H×WN=H\times WN=H×W,每个特征向量对应了特征图映射中的一个空间上的位置。然后我们将从图像对提取的特征映射表示为Xα={x1α,...,xNα}X^{\alpha}=\{x_1^{\alpha} , ...,x_N^{\alpha}\}Xα={x1α,...,xNα}以及Xβ={x1β,...,xNβ}X^{\beta}=\{x_1^{\beta} , ...,x_N^{\beta}\}Xβ={x1β,...,xNβ}。我们通过Sij=(xiα)TxjβS_{ij}=(x_i^{\alpha})^Tx_j^{\beta}Sij=(xiα)Txjβ计算每个xiαx_i^{\alpha}xiα以及xjβx_j^{\beta}xjβ之间的cosine相似度,利用以下公式来计算相似度矩阵S∈RN×NS\in R^{N\times N}SRN×N:S=[(x1α)T⋮(xNα)T].[x1β,...,xNβ]=[(s1)T⋮(sN)T],S=\left [ \begin{aligned} &(x_1^{\alpha})^T\\ &\vdots\\ &(x_N^{\alpha})^T\\ \end{aligned} \right].[x_1^{\beta},..., x_N^{\beta}]=\left [\begin{aligned} &(s_1)^T\\ &\vdots\\ &(s_N)^T\\ \end{aligned}\right], S=(x1α)T(xNα)T.[x1β,...,xNβ]=(s1)T(sN)T,其中每个向量si=[Si1,...,SiN]T∈RNs_i=[S_{i1}, ..., S_{iN}]^T\in R^Nsi=[Si1,...,SiN]TRN包含了SSS中第iii行的元素,表示了xiα∈Xαx_i^{\alpha}\in X^{\alpha}xiαXαXβX^{\beta}Xβ中所有的特征向量之间的cosine距离。将SSS重置成一个形状为H×W×NH \times W \times NH×W×N的特征立方体Xsα∈RH×W×NX_s^{\alpha}\in R^{H\times W\times N}XsαRH×W×N作为特征映射XαX^{\alpha}Xα的相似度表征,然后将XsαX_s^{\alpha}Xsα输入到一个核为1×11\times 11×1的卷积层中,再在输出上应用一个softmaxsoftmaxsoftmax得到XαX^{\alpha}Xα注意力映射Aα∈RH×WA^{\alpha}\in R^{H\times W}AαRH×W,其中AαA^{\alpha}Aα中的注意力值aiαa_i^{\alpha}aiα定义如下:aiα=exp(θsTsi)Σi=1Nexp(θsTsi),a_i^{\alpha}=\frac{exp(\theta^T_s s_i)}{\Sigma_{i=1}^{N}exp(\theta^T_s s_i)},aiα=Σi=1Nexp(θsTsi)exp(θsTsi),其中θ∈RN\theta\in R^{N}θRN表示了核为1×11\times11×1的卷积层的权重,最后采用如下公式获得了注意力掩膜特征xˉα∈RC\bar x^{\alpha} \in R^{C}xˉαRCxˉα=∑i=1Naiαxiα.\bar x^{\alpha}=\sum^{N}_{i=1}a_i^{\alpha}x^{\alpha}_i.xˉα=i=1Naiαxiα.对于特征映射XβX^{\beta}Xβ,我们将距离矩阵SSS转置成STS^{T}ST,然后以相同的方式得到其注意力掩膜特征xˉβ∈RC\bar x^{\beta} \in R^{C}xˉβRC。然后将得到的xˉα\bar x^{\alpha}xˉαxˉβ\bar x^{\beta}xˉβ连接起来,输入到输出通道为512的全连接层中得到结合特征xc∈R512x^{c}\in R^{512}xcR512

时间注意力网络

时间注意力网络

  1. 时间注意力网络如上图,采用了Bi-LSTM的来构建网络。
  2. 将利用跟踪轨迹中的观测与检测对输入到空间注意力网络中得到的结合特征集{x1c,...xTc}\{x_1^c,...x_T^c\}{x1c,...xTc}输入到时间注意力网络中,再在输出上添加一个softmaxsoftmaxsoftmax层预测跟踪轨迹中每个观测对应的注意力值:at=exp(θhT[htl;htr])Σt=1Texp(θTh[htl;htr]),t=1,...,Ta_t=\frac{exp(\theta^T_h[h_t^l;h^r_t])}{\Sigma^T_{t=1}exp(\theta_T^h[h^l_t;h^r_t])},t=1, ..., Tat=Σt=1Texp(θTh[htl;htr])exp(θhT[htl;htr]),t=1,...,T其中htlh^l_thtlhtrh^r_thtr表示Bi-LSTM的隐藏层表示,θh\theta_hθh表示Bi-LSTM的输出层的权重。在特征池化的时候,每个观测的隐藏层表示由ata_tat进行权衡,池化隐藏层表征计算公式如下:hˉ=∑i=1Tat[htl;htr].\bar h=\sum^T_{i=1}a_t[h_t^l;h_t^r].hˉ=i=1Tat[htl;htr].得到池化隐藏层表征hˉ\bar hhˉ之后,将其输入到二元分类层中来预测目标跟踪轨迹中的观测与检测之间的相似度得分。

跟踪轨迹管理

  1. 对于跟踪轨迹的初始化,我们设置一个阈值τi\tau_iτi,如果目标被标记为丢失或者前τi\tau_iτi帧中某一帧的该目标没有被任何检测所覆盖,则丢失该目标。
  2. 对于跟踪轨迹的终止,我们会终止掉超过τt\tau_tτt帧都是丢失状态或者从视野中消失的目标对应的跟踪轨迹。
  3. 我们通过从收集的M个最近观测样本中均匀采样,生成TTT长度的跟踪轨迹用于数据关联,以减少冗余。

个人看法

  1. 该论文本质上也能归为在计算亲和度上进行创新,利用空间注意力机制和时间注意力机制,缓解了给定检测的对准误差和部分丢失导致模型判别能力下降的问题。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值