IROS24新鲜出炉：PRL-Track，最先进的无人机视觉目标跟踪系统！

最新推荐文章于 2025-07-23 17:44:35 发布

深蓝学院

最新推荐文章于 2025-07-23 17:44:35 发布

阅读量3.4k

点赞数 17

CC 4.0 BY-SA版权

文章标签：无人机目标跟踪计算机视觉

本文链接：https://blog.youkuaiyun.com/soaring_casia/article/details/142818138

导读：

近年来，随着无人机技术的飞速发展，视觉目标跟踪在无人机的自主应用中扮演着越来越重要的角色，然而，在复杂多变的环境中，实现高精度的目标跟踪并非易事。无人机在飞行过程中，常常会遇到目标的纵横比变化、遮挡以及光照变化等问题。

针对上述困难，研究者们提出了一种全新的渐进式表征学习框架，称为PRL-Track，该框架将表征学习过程分为粗表征学习和细表征学习两个阶段，通过交织粗目标表征，进一步细化目标特征，从而提升跟踪的精确度和稳健性。

在实际应用中，PRL-Track在配备边缘智能相机的典型无人机平台上，实现了每秒42.6帧的高效跟踪速度。©️【深蓝AI】编译

1. 引入

稳健的视觉目标跟踪在智能无人机应用中至关重要，例如任务规划、生物多样性保护和目标定位等。在这些广泛的应用中，无人机跟踪器的目标是从第一帧的初始位置开始，预测目标在后续帧中的位置。受益于具有手动标注的大规模数据集，Siamese跟踪器通过采用卷积神经网络（CNN）来学习目标表示，取得了令人鼓舞的性能。然而，当面对复杂的动态环境（如目标的纵横比变化和遮挡）时，由于轻量级CNN（如AlexNet）表示能力的限制，这些跟踪器难以获得稳健的目标表示。尽管采用更深层骨干网络（如ResNet）的跟踪器可以更好地学习目标表示，但它们无法满足无人机有限计算资源所要求的实时性。因此，在复杂动态环境中，为无人机跟踪生成稳健的目标表示仍然是一个亟待解决的挑战。

一种有前景的解决方案是探索针对无人机跟踪任务的多尺度特征。具体而言，通过卷积操作聚合来自不同层的多尺度特征，有助于缓解无人机跟踪过程中因遮挡导致的特征退化。然而，由于卷积核的感受野有限，CNN缺乏对长距离依赖关系的建模能力，难以捕获多尺度特征之间的全局上下文信息。近年来，视觉Transformer（ViT）凭借注意力机制在建模长距离依赖方面展现了巨大的潜力。将ViT引入Siamese跟踪器，弥补了传统基于CNN的跟踪器在学习全局信息方面的不足。此外，ViT固有的全局建模能力在处理外观变化（如纵横比变化）时表现出优势。然而，与CNN相比，ViT倾向于忽略局部空间信息，降低了对图像目标的辨别能力。此外，注意力机制的高计算复杂度和内存消耗，也是其在计算资源有限的无人机嵌入式处理器上广泛应用的障碍。因此，如何提取更可靠的信息，为无人机跟踪生成稳健的目标表示，值得深入研究。

为充分利用全局上下文信息和局部空间信息，将CNN和ViT有机结合是一种有前途的策略。CNN在快速收敛和过滤冗余信息方面具有优势，适合从图像中提取目标的局部信息，形成粗略的目标表示。随后，ViT利用这些粗略的目标表示，细化并增强对全局上下文信息的理解，从而生成稳健的精细目标表示。然而，由于CNN和ViT在特征空间上的差异，直接将它们连接会导致性能下降。因此，如何有效地整合CNN和ViT，用于实时无人机跟踪，是一个值得深入探索的问题。

本研究提出了一种新颖的渐进式表征学习框架，称为PRL-Track，由基于CNN的粗略表征学习和基于ViT的精细表征学习组成。通过利用CNN和ViT的互补优势，PRL-Track能够学习稳健的精细目标表示，在无人机跟踪过程中面对遮挡和纵横比变化等挑战时，取得了令人满意的性能。实验结果显示，PRL-Track在无人机跟踪中的表现出色，在平均精度和成功率方面优于其他多种先进的跟踪器。

本研究的主要贡献如下：

●提出了一种新颖的渐进式表征学习框架PRL-Track，通过从粗到精的方式为无人机跟踪学习稳健的精细目标表示，提升了跟踪性能。

●开发了创新的外观感知调节器，用于减轻外观干扰，并从浅层特征中提取有用信息，支持粗略表征学习。此外，设计了简洁的语义感知调节器，以捕获语义信息，促进深层特征的聚焦。

●提出了一种新的分层建模生成器，通过融合粗略的目标表示，增强对上下文信息的理解，用于精细表征学习，进一步为无人机跟踪生成稳健的精细目标表示。

●通过全面评估证实了PRL-Track的先进性能，验证了所提出框架的有效性。在典型的无人机平台上进行的实际测试表明，PRL-Track在实际场景中表现出卓越的效率和鲁棒性。

2. 具体方法与实现

如图1所示，作者提出的PRL-Track框架分为「粗略表征学习」和「精细表征学习」两个阶段。首先，粗略表征学习生成目标的粗略表示，获取目标的局部空间信息。在此基础上，精细表征学习进一步生成稳健的精细目标表示，用于无人机跟踪。通过这种从粗到精的渐进式方法，所提出的框架在复杂动态环境（如遮挡和纵横比变化）中能够保持优异的跟踪性能。这里笔者对图1进行一个更深入的解读，在粗略表征学习阶段，作者采用了外观感知调节器和语义感知调节器来生成粗略的目标表示，这些表示突出强调了图像的不同特征。

接着，在精细表征学习阶段，首先将粗略的目标表示进行分块，然后依次经过投影、拆分和重组，分别得到M3、M4和M5。最后，通过分层交叉注意力机制将这些特征融合起来，从而获得更为稳健的目标表示，用于无人机的精准跟踪。看完图1，我们能够了解到本文的追踪模块主要分为粗细两个部分，接下来的解读中，笔者将按照由粗到细逐步分析具体的方法实现。

图1｜全文方法总览©️【深蓝AI】编译