IROS24新鲜出炉:PRL-Track,最先进的无人机视觉目标跟踪系统!

导读:

近年来,随着无人机技术的飞速发展,视觉目标跟踪在无人机的自主应用中扮演着越来越重要的角色,然而,在复杂多变的环境中,实现高精度的目标跟踪并非易事。无人机在飞行过程中,常常会遇到目标的纵横比变化、遮挡以及光照变化等问题。

针对上述困难,研究者们提出了一种全新的渐进式表征学习框架,称为PRL-Track,该框架将表征学习过程分为粗表征学习和细表征学习两个阶段,通过交织粗目标表征,进一步细化目标特征,从而提升跟踪的精确度和稳健性。

在实际应用中,PRL-Track在配备边缘智能相机的典型无人机平台上,实现了每秒42.6帧的高效跟踪速度。©️【深蓝AI】编译

1. 引入

稳健的视觉目标跟踪在智能无人机应用中至关重要,例如任务规划、生物多样性保护和目标定位等。在这些广泛的应用中,无人机跟踪器的目标是从第一帧的初始位置开始,预测目标在后续帧中的位置。受益于具有手动标注的大规模数据集,Siamese跟踪器通过采用卷积神经网络(CNN)来学习目标表示,取得了令人鼓舞的性能。然而,当面对复杂的动态环境(如目标的纵横比变化和遮挡)时,由于轻量级CNN(如AlexNet)表示能力的限制,这些跟踪器难以获得稳健的目标表示。尽管采用更深层骨干网络(如ResNet)的跟踪器可以更好地学习目标表示,但它们无法满足无人机有限计算资源所要求的实时性。因此,在复杂动态环境中,为无人机跟踪生成稳健的目标表示仍然是一个亟待解决的挑战。

一种有前景的解决方案是探索针对无人机跟踪任务的多尺度特征。具体而言,通过卷积操作聚合来自不同层的多尺度特征,有助于缓解无人机跟踪过程中因遮挡导致的特征退化。然而,由于卷积核的感受野有限,CNN缺乏对长距离依赖关系的建模能力,难以捕获多尺度特征之间的全局上下文信息。近年来,视觉Transformer(ViT)凭借注意力机制在建模长距离依赖方面展现了巨大的潜力。将ViT引入Siamese跟踪器,弥补了传统基于CNN的跟踪器在学习全局信息方面的不足。此外,ViT固有的全局建模能力在处理外观变化(如纵横比变化)时表现出优势。然而,与CNN相比,ViT倾向于忽略局部空间信息,降低了对图像目标的辨别能力。此外,注意力机制的高计算复杂度和内存消耗,也是其在计算资源有限的无人机嵌入式处理器上广泛应用的障碍。因此,如何提取更可靠的信息,为无人机跟踪生成稳健的目标表示,值得深入研究。

为充分利用全局上下文信息和局部空间信息,将CNN和ViT有机结合是一种有前途的策略。CNN在快速收敛和过滤冗余信息方面具有优势,适合从图像中提取目标的局部信息,形成粗略的目标表示。随后,ViT利用这些粗略的目标表示,细化并增强对全局上下文信息的理解,从而生成稳健的精细目标表示。然而,由于CNN和ViT在特征空间上的差异,直接将它们连接会导致性能下降。因此,如何有效地整合CNN和ViT,用于实时无人机跟踪,是一个值得深入探索的问题。

本研究提出了一种新颖的渐进式表征学习框架,称为PRL-Track,由基于CNN的粗略表征学习和基于ViT的精细表征学习组成。通过利用CNN和ViT的互补优势,PRL-Track能够学习稳健的精细目标表示,在无人机跟踪过程中面对遮挡和纵横比变化等挑战时,取得了令人满意的性能。实验结果显示,PRL-Track在无人机跟踪中的表现出色,在平均精度和成功率方面优于其他多种先进的跟踪器。

本研究的主要贡献如下:

●提出了一种新颖的渐进式表征学习框架PRL-Track,通过从粗到精的方式为无人机跟踪学习稳健的精细目标表示,提升了跟踪性能。

●开发了创新的外观感知调节器,用于减轻外观干扰,并从浅层特征中提取有用信息,支持粗略表征学习。此外,设计了简洁的语义感知调节器,以捕获语义信息,促进深层特征的聚焦。

●提出了一种新的分层建模生成器,通过融合粗略的目标表示,增强对上下文信息的理解,用于精细表征学习,进一步为无人机跟踪生成稳健的精细目标表示。

●通过全面评估证实了PRL-Track的先进性能,验证了所提出框架的有效性。在典型的无人机平台上进行的实际测试表明,PRL-Track在实际场景中表现出卓越的效率和鲁棒性。

2. 具体方法与实现

如图1所示,作者提出的PRL-Track框架分为「粗略表征学习」和「精细表征学习」两个阶段。首先,粗略表征学习生成目标的粗略表示,获取目标的局部空间信息。在此基础上,精细表征学习进一步生成稳健的精细目标表示,用于无人机跟踪。通过这种从粗到精的渐进式方法,所提出的框架在复杂动态环境(如遮挡和纵横比变化)中能够保持优异的跟踪性能。这里笔者对图1进行一个更深入的解读,在粗略表征学习阶段,作者采用了外观感知调节器和语义感知调节器来生成粗略的目标表示,这些表示突出强调了图像的不同特征。

接着,在精细表征学习阶段,首先将粗略的目标表示进行分块,然后依次经过投影、拆分和重组,分别得到M3、M4和M5。最后,通过分层交叉注意力机制将这些特征融合起来,从而获得更为稳健的目标表示,用于无人机的精准跟踪。看完图1,我们能够了解到本文的追踪模块主要分为粗细两个部分,接下来的解读中,笔者将按照由粗到细逐步分析具体的方法实现。

图1|全文方法总览©️【深蓝AI】编译

2.1 粗表征学习

粗表征阶段主要由外观感知调节器(AR)和语义感知调节器(SR)两个部分组成,目的是通过解构追踪物体的外观和语义实现对于追踪物体的初步表征。

AR 的主要作用是调整特征的权重,以强调目标的外观信息。其激活函数(ReLU)定义如下:

α c = ReLU ( Conv ( Concat ( I 1 , I 2 ) ) ) \alpha_c = \text{ReLU}\left( \text{Conv}\left( \text{Concat}\left( I_1, I_2 \right) \right) \right) αc=ReLU(Conv(Concat(I1,I2)))

其中, Conv \text{Conv} Conv表示卷积操作, Concat \text{Concat} Concat表示特征拼接, I 1 I_1 I1 I 2 I_2 I2是输入特征。AR还使用了残差连接和激活函数,以加速网络的学习并避免梯度消失问题。

接着,权重图 α c \alpha_c αc与第三层的特征 F 3 F_3 F3进行逐元素相乘,再通过残差连接得到AR的输出:

W 3 = CNR ( F 3 + α c ⋅ F 3 ) W_3 = \text{CNR}\left( F_3 + \alpha_c \cdot F_3 \right) \quad W3=CNR(F3+αcF3)

其中, CNR \text{CNR} CNR表示卷积(Conv)、归一化(Norm)和激活函数(ReLU)的组合操作。

值的注意的是:全局控制器(GC)用于控制特征的流动,从而提升目标表示的质量。在学习过程中, 1 × 1 1 \times 1 1×1卷积能够自适应地保留有效信息或滤除冗余信息,增强目标表示的表达能力。

接下来我们分析一下语义感知调节器SR,SR的目的是从深层特征(第四层和第五层)中学习语义信息。它通过融合浅层和深层特征,动态地整合上下文信息。SR接收前一层的输出 W i W_i Wi和当前层的特征 F j F_j Fj作为输入。用于粗略表征学习的两个SR的输出 W 4 W_4 W4 W 5 W_5

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值