Global Tracking Transformers (多目标跟踪2022CVPR)

本文介绍了一种新的全局跟踪Transformer(GTR)模型,它以短序列帧为输入,直接生成目标轨迹,避免了传统两步检测和关联。GTR通过Transformer层对所有帧的对象进行编码,并使用轨迹查询分组为轨迹。与传统方法不同,GTR不需要组合优化,可以与检测器联合训练,适用于动态环境中的多目标跟踪。实验表明,GTR在TAO和MOT17基准上表现出色,证实了其在全局跟踪问题中的有效性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Global Tracking Transformers

论文地址:https://arxiv.org/abs/2203.13250
代码: https://github.com/xingyizhou/GTR

摘要

我们网络以短序列帧作为输入并生成目标的全局轨迹。核心组件是一个全局跟踪Transformer,它对序列中所有帧的对象进行操作。它对所有帧中的目标特征进行编码,并使用轨迹查询将其分组为轨迹。轨迹查询是来自单帧的目标特征。我们全局跟踪器不需要中间成对分组或组合关联,并且可以与对象检测器联合训练 。
更重的是,我们的框架无缝地集成到最先进的大词汇量检测器中,以跟踪任何对象。

1、介绍

多目标跟踪旨在发现并跟踪视频流中所有目标。它是移动机器人等领域的基本构件,自治系统必须穿越由其他移动代理填充的动态环境。近年来,随着深度学习和目标检测技术的发展,基于检测的跟踪已经成为主流跟踪模式。
TBD范式将跟踪减少为两步:检测和关联。首先,目标检测器独立地在视频流的每个帧中查找潜在对象。第二,关联步骤通过时间链接检测。本地跟踪器主要考虑贪婪的两两关联 ,它们根据位置或身份特征维护每条轨迹的状态 ,并根据当前帧检测与每条轨迹上一可见状态相关联 。这种两两关联是有效的,但缺乏一个整体轨迹的明确模型,有时会遇到严重的遮挡或强烈的外观变化。其他全局跟踪器在成对关联上运行基于图的离线组合优化。它们可以解决不一致的分组检测,并且更加健壮,但速度较慢,通常与检测器分离。
在这项工作中,我们展示了如何将全局跟踪(图1b)表示为深度网络中的几层(图2)。 我们的网络直接输出轨迹,因此避开了成对关联和基于图的优化。我们证明,探测器[ Mask r-cnn,Faster R-CNN,Objects as points]可以通过Transformer层来增强,从而变成联合探测器和跟踪器。我们的全球跟踪变换器(GTR)对多个连续帧的检测进行编码,并使用轨迹查询将其分组为轨迹。 查询是非最大抑制后单个帧(例如在线跟踪器中的当前帧)的检测特征,并由GTR转换为轨迹。每个轨迹查询通过使用softmax分布为其分配来自每个帧的检测来生成单个全局轨迹。因此,我们模型的输出是检测及其随时间的关联。
训练时,我们使用GT真实轨迹及其图像级边界框监督学习我们的GTR输出。在推理过程中,我们以滑动窗口的方式运行GTR,时间大小适中,为32帧,并在线链接窗口之间的轨迹。该模型在时间窗口内是端到端可微的。

我们的框架是由transformer模型[49]最近在计算机视觉[14,25,47,67]和目标检测[8,53]方面的成功所推动的。我们在一个时间窗口内执行轨迹查询和目标特征之间的交叉注意,并显式地监督它生成一个查询到检测分配。每个分配
直接关联全局轨迹。与基于Transformer的检测器【Trackformer、Transtrack、End-to-end video instance segmentation with transformers. 】不同,它将查询学习为固定参数,而我们的查询来自现有的检测功能,并与图像内容相适应。此外,我们的GTR对检测到的目标而不是原始像素进行操作
我们的框架是端到端可培训的,并且易于与最先进的目标检测器集成。
在这里插入图片描述

2、相关工作

局部多目标跟踪:许多受欢迎的跟踪器在局部贪婪地进行追踪【Tracking without bells and whistles、Tracking without bells and whistles、JDE、Transcenter、Fairmot、Tracking objects as points】。它们维护一组已经确认的轨迹,并基于成对目标轨迹距离度量将新检测到的目标链接到轨迹。 SORT和DeepSORT使用卡尔曼滤波跟踪并在每一步中更新潜在位置或深层特征。[Tracking without bells and whistles]将轨迹作为建议提供给检测器,并直接传播跟踪ID。CenterTrack在现有轨迹上设置检测条件,并使用预测的位置关联对象。TransCenter[61]在CenterTrack的基础上加入了可变形DETR。JDE[54]和FairMOT[66]将检测器与实例分类分支一起训练,并通过类似于SORT[5]的成对ReID特征进行关联。STRN学习了一个考虑了空间和时间线索的专用关联特征,但再次执行成对关联。相比之下,我们不依赖于成对关联,而是通过Transformer与整个时间窗口中的所有对象关联。

全局跟踪: 传统的跟踪器首先离线检测对象,并考虑所有帧之间的对象关联作为组合优化问题。Zhang等人[65]将跟踪描述为图上的最小代价最大流问题,其中节点是检测,边是有效关联。MPN[6]简化了图形构造,并提出了一种执行图形优化的神经求解器。LPC[12]还考虑了图上的一个分类模块。Lif T[44

Global Tracking Transformer是一种基于transformer的全局多目标跟踪体系结构。它以短时间的帧序列作为输入,并为所有目标产生全局轨迹。其核心组件是global track transformer,它对序列中所有帧的目标进行操作。transformer对所有帧中的目标特征进行编码,并使用trajectory queries将它们分组为轨迹。trajectory queries是来自单个帧的目标特征,可以产生独特的轨迹。与传统的成对分组或组合关联不同,该方法不需要中间的成对分组或组合关联,并且可以与目标检测器联合训练。该方法在流行的MOT17基准测试上取得了具有竞争力的性能,具有75.3 MOTA和59.1 HOTA。此外,该方法还无缝地集成到最先进的大型词汇量检测器中,以跟踪任何对象。\[2\]该方法的结构如图3所示,它的工作流程如下:首先,目标检测器独立地在所有帧中检测目标。然后,将目标特征与轨迹查询进行拼接,并输入到全局Tracking transformer (GTR)的编码器中。GTR还将轨迹查询作为解码器的输入,并生成每个查询和目标之间的关联分数。关联矩阵将每个查询与目标进行连接。在测试过程中,轨迹查询是最后一帧中的目标特征。\[3\]该方法受到了最近transformer模型在计算机视觉中的成功经验的启发,特别是在目标检测中的应用。它利用了查询和编码器特征之间的交叉注意结构,挖掘了对象之间的相似性,并适用于多目标跟踪中的关联目标。与基于transformer的检测器不同,该方法的查询来自现有的检测特征,并适应图像内容。此外,该方法对检测到的对象进行操作,而不是原始像素,这使得它能够充分利用已有的目标检测器。 #### 引用[.reference_title] - *1* *2* *3* [【论文速递】CVPR2022 - 全局跟踪Transformers](https://blog.youkuaiyun.com/Never_moresf/article/details/128704693)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值