Siamese Transformer Pyramid Networks for Real-Time UAV Tracking(SiamTPN:用于实时无人机跟踪的孪生Transformer) 翻译

摘要

        最近的目标跟踪方法依赖于深度网络或复杂的架构。大多数跟踪器很难在满足实时处理要求的同时,应用于计算资源有限的移动平台。在本文中,我们介绍了孪生Transformer金字塔网络(SiamTPN),它继承了卷积神经网络(CNN)和Transformer架构的优点。具体来说,我们利用了一个轻量级网络(ShuffleNetV2)固有的特征金字塔,并用Transformer对其进行强化,以构建一个稳健的特定目标外观模型。我们开发了一种具有横向交叉注意力的集中式架构,用于构建增强的高级特征图。为了避免在将金字塔表示与Transformer融合时产生大量的计算和内存负担,我们进一步引入了池化注意力模块,该模块在降低内存和时间复杂度的同时提高了稳健性。在航空和流行的跟踪基准上进行的综合实验取得了具有竞争力的结果,同时实现了高速运行,证明了SiamTPN的有效性。此外,我们的最快变体跟踪器在单个CPU核心上的运行速度超过30Hz,并在LaSOT数据集上获得了58.1%的AUC得分。

源代码:https://github.com/RISCNYUAD/SiamTPNTracker获取。

      1. 简介

        近年来,无人机(UAV)跟踪因其在路径规划[25]、视觉监控[43]和边境安全[44]等多个领域的巨大潜力而受到越来越多的关注。尽管视觉目标跟踪方法已经取得了长足的进步,但实时跟踪问题仍未得到足够重视。此外,性能较低的小型设备上固有的电源资源限制进一步制约了无人机跟踪的发展。

        由于移动设备上软件和硬件的优化,以及轻量级但强大的骨干网络[24, 36, 41]的进步,基于视觉分类、目标检测和实例分割的实时应用已经在CPU端实现。然而,为计算能力有限的无人机(如单核CPU)设计一个高效且有效的目标跟踪器仍然是一个挑战。轻量级骨干网络不足以提取稳健的判别特征,这对于跟踪性能至关重要,尤其是在不确定性场景下。因此,以往的跟踪器试图通过采用更深的网络[26]、设计复杂的结构[50]或在线更新器[2]来解决这个问题,但这些方法都牺牲了推理速度。

图1. CPU质量和速度的比较(深红色)或GPU(蓝色)在Got10K上的跟踪方法测试集。平均重叠率(AO)相对于每秒帧数(FPS)已显示。蓝色区域表示跟踪器以实时速度运行

图2.Object tracking architecture comparison

        在本文中,我们缓解了上述问题,适应了轻量级骨干网络,并构建了一个基于CPU的实时跟踪器。首先,为了补充轻量级骨干网络的表征能力,我们将特征金字塔网络(FPN)[30]集成到跟踪流程中。尽管现有的跟踪器[7, 15, 27]也采用多尺度特征,但其中大多数只是进行简单的组合或使用特征执行不同的任务。我们认为这从根本上来说是受限的,因为区分性表征需要结合来自多个尺度的上下文信息。尽管FPN编码了来自低/高级语义的金字塔信息,但它仅利用局部邻域的上下文,而不是显式建模全局交互。FPN的感知受到感受野的限制,这在较浅的网络上尤为明显。受Transformer[5]的发展及其建模全局依赖关系的能力的启发,最近的工作[13, 49]引入了基于注意力的模块并取得了深刻的结果。然而,这些模型的复杂性可能会导致计算/内存开销,这不适合金字塔架构。相反,我们设计了一个轻量级的Transformer注意力层,并将其嵌入到金字塔网络中。所提出的孪生Transformer金字塔网络(命名为SiamTPN)通过金字塔特征之间的横向交叉注意力来增强目标特征,从而产生稳健的特定目标外观表征。图2说明了我们的跟踪器与现有跟踪器之间的主要差异。此外,我们的跟踪器基于轻量级骨干网络,在GPU和CPU端均以实时速度运行,并取得了最先进的结果,如图1所示。我们的主要贡献总结如下:

  1. 我们为计算能力有限的系统引入了一种基于Transformer的跟踪框架。这类系统通常在只有CPU支持的无人机中遇到。据我们所知,这是第一个在无人机上使用CPU以实时速度运行的基于深度学习的视觉跟踪器。

  2. 我们提出了一种轻量级的Transformer层,并将其集成到金字塔网络中,以构建一个高效且有效的框架。

  3. 在多个基准测试上的卓越性能以及广泛的消融研究证明了所提出方法的有效性。特别是,我们的方法在仅使用轻量级骨干网络的情况下,在LaSOT[14]上取得了最先进的结果和58.1的AUC分数,同时在CPU端以超过30 FPS的速度运行。现场测试进一步验证了SiamTPN在实际应用中的效率

2. 相关工作

2.1 轻量级网络

随着在移动平台上运行神经网络的需求增加,一系列轻量级模型被提出[24, 36, 41]。AlexNet[24]利用全卷积操作,在ImageNet[12]分类任务上取得了显著成果。MobileNet[41]系列提出了倒置残差块和深度可分离卷积来节省计算成本。ShuffleNet[36]系列是另一种轻量级深度神经网络,它引入了通道混洗操作,并针对目标硬件优化了网络设计。

特征金字塔网络 特征金字塔(即自下而上的特征金字塔)是现代神经网络设计中最常见的架构。卷积神经网络(CNN)的层次结构在逐渐增大的感受野中编码上下文信息。特征金字塔网络(FPN)[30]和路径聚合网络(PANet)[32]常用于跨尺度特征交互和多尺度特征融合。FPN包括

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值