TGRS2023 基于小波池化和图增强分类的无人机小目标跟踪

收录于TGRS2023 (2023 IEEE Transactions on Geoscience and Remote Sensing )
基于小波池化和图增强分类的无人机小目标跟踪
在这里插入图片描述

本文提出了一个基于孪生神经网络的航空跟踪器(SmallTrack),该框架通过小波池化层和图增强模块,显著提升了模型在复杂航空场景中精确跟踪小目标的能力,同时保持了72.5帧/秒的高速运行速度。

该研究基于视频序列进行目标跟踪。实验所使用的数据集(如 UAV20L、UAVDT、DTB70 等)均为包含连续视频帧的 aerial 视频数据集。

一、摘要Abstract

Aerial object tracking has shown great potential in the field of remote sensing recently. Nevertheless, small objects that frequently appear in unmanned aerial vehicles (UAVs) scenes have weak appearances and are vulnerable to distractions, posing a huge challenge to aerial trackers. Despite the significant improvements, it is challenging for most trackers to capture enough discriminative features, which becomes even more evident in unavoidable situations involving high altitude and background disturbances. To address the problem of small object tracking for UAVs, we propose a simple yet efficient tracker (SmallTrack) based on the siamese network to improve the discrimination of small objects from two stages. First, the wavelet pooling layer is introduced to remove noises and to avoid aliasing effects via wavelet domain learning, significantly preserving structure and detail information of small objects. Then, the graph enhanced module in classification is designed to exploit potential relations between nodes and to enhance the understanding of targets, which provides cleaner classification responses and makes small objects highly discriminative. To evaluate the performance of proposed tracker, comprehensive experiments are conducted on four challenging aerial tracking benchmarks, including UAV20L, UAVDT, DTB70 and VisDrone2019. Experiment results demonstrate that the proposed tracker achieves leading tracking performance in aerial benchmarks with a mean speed of 72.5 frames/s. In addition, we conducted experiments on the small object dataset, LaTOT, to further verify the effectiveness of our tracker. Moreover, real-world tests onboard a typical embedded platform demonstrate that SmallTrack achieves reliable tracking results with acceptable speed. The tracking demos and code are available at https://github.com/xyl-507/SmallTrack.

Index Terms—Remote sensing, aerial tracking, siamese neural network, wavelet pooling layer, graph enhanced classification.

摘要翻译:

  • 近年来,空中目标跟踪在遥感领域展现出巨大潜力。然而,无人机(UAV)场景中频繁出现的小目标外观特征微弱且易受干扰,这对空中跟踪器构成了巨大挑战。尽管现有方法已取得显著进步,但大多数跟踪器仍难以捕捉足够的判别性特征,这一问题在高空拍摄和背景干扰等不可避免的场景中尤为突出。

  • 为解决无人机小目标跟踪问题,本文提出一种基于孪生网络的简单高效跟踪器(SmallTrack),从两个阶段提升小目标的判别能力:首先,引入小波池化层,通过小波域学习去除噪声并避免混叠效应,显著保留小目标的结构和细节信息;其次,在分类阶段设计图增强模块,挖掘节点间的潜在关系并增强对目标的理解,从而提供更清晰的分类响应,使小目标具有高度判别性。

  • 为评估所提跟踪器的性能,我们在四个具有挑战性的空中跟踪基准数据集(UAV20L、UAVDT、DTB70和VisDrone2019)上进行了全面实验。结果表明,该跟踪器在这些空中基准数据集上实现了领先的跟踪性能,平均速度达72.5帧/秒。此外,我们在小目标数据集LaTOT上进行的实验进一步验证了跟踪器的有效性。同时,在典型嵌入式平台上的实测试验表明,SmallTrack能够以可接受的速度实现可靠的跟踪结果。跟踪演示和代码可在https://github.com/xyl-507/SmallTrack获取。

  • 关键词 —— 遥感、空中跟踪、孪生神经网络、小波池化层、图增强分类

二、本文贡献总结:

  1. 基于孪生网络的高效跟踪框架:SmallTrack采用孪生网络架构,包含模板分支与搜索分支,通过计算目标模板与搜索区域的互相关相似度实现视觉目标跟踪,将跟踪问题转化为相似性匹配任务,为小目标跟踪提供了高效的基础框架。

  2. 小波池化层(WPL)的提出:设计小波池化层替代传统池化操作,通过二维离散小波变换(2D DWT)将特征图分解为低频(LL)和高频(LH、HL、HH)分量,在实现降采样的同时,有效抑制噪声和混叠效应,充分保留小目标的结构与细节信息,提升了对弱特征小目标的表征能力。

  3. 图增强模块(GEM)的设计:提出基于图神经网络(GNN)的图增强模块,将分类响应图建模为节点(像素)和边(像素关系)的图结构,通过更新节点与边的权重,增强小目标区域的激活响应并抑制背景干扰,显著提升了小目标的判别性。

三、孪生网络Siamese Trackers

A. The Architecture of Siamese Trackers
在这里插入图片描述

图2: SmallTrack由五个组件组成,用于特征下采样和去噪的WPL,用于特征提取的主干网络,用于相似性响应的交叉相关性,用于分类响应增强的GEM,以及用于最终预测的分类和回归。

孪生网络(Siamese Trackers)架构的核心是将目标跟踪问题转化为相似性匹配任务,通过模板与搜索区域的特征比对实现目标定位。

  1. 核心目标 视觉目标跟踪的核心是最小化目标位置预测与标注标签的残差,优化目标定位,其目标函数如公式(1)所示: L ( ω ) = ∑ j = 1 m γ j r ( f ( x j ; ω ) , y j ) + ∑ k λ k ∥ ω k ∥ 2 (1) L(\omega) = \sum_{j=1}^{m} \gamma_{j} r\left(f\left(x_{j} ; \omega\right), y_{j}\right) + \sum_{k} \lambda_{k}\left\| \omega_{k}\right\| ^{2} \tag{1} L(ω)=j=1mγjr(f(xj;ω),yj)+kλkωk2(1) 其中, f ( x j ; ω ) f(x_{j} ; \omega) f(xj;ω)为每个位置的预测值, y j y_j yj为标注标签, r r r为残差项, γ j \gamma_j γj为影响因子, λ k \lambda_k λk为正则化系数,用于优化模型参数 ω \omega ω

  2. 网络结构与工作流程 孪生网络包含模板分支(template branch)搜索分支(search branch): - 模板分支:处理第一帧中人工标注的目标区域(模板 z z z),通过骨干网络 ϕ \phi ϕ提取特征 ϕ ( z ) \phi(z) ϕ(z); - 搜索分支:处理后续帧中以历史跟踪结果为中心裁剪的固定大小搜索区域( x x x),提取特征 ϕ ( x ) \phi(x) ϕ(x)

  3. 相似性计算 通过计算模板特征与搜索区域特征的互相关(cross-correlation)生成响应图,响应值最高的位置即为目标所在,如公式(2)所示: f ( z , x ) = f ( ϕ ( z ) , ϕ ( x ) ) = ϕ ( z ) ∗ ϕ ( x ) + b ⋅ I (2) f(z, x) = f(\phi(z), \phi(x)) = \phi(z) * \phi(x) + b \cdot I \tag{2} f(z,x)=f(ϕ(z),ϕ(x))=ϕ(z)ϕ(x)+bI(2) 其中, ∗ * 表示互相关运算, b b b为卷积层偏置, I I I为单位矩阵, b ⋅ I b \cdot I bI表示每个位置的偏置信号。 该架构通过滑动窗口式的特征匹配,实现了高效的目标定位,为后续小波池化层(WPL)和图增强模块(GEM)的集成提供了基础框架。

四、小波池化层WPL

WPL计算步骤概括

在这里插入图片描述

  1. 子带分解:通过二维离散小波变换(2D DWT)将输入特征图 X X X分解为四个子带 L L LL LL(低频)、 L H LH LH(水平低频+垂直高频)、 H L HL HL(水平高频+垂直低频)、 H H HH HH(高频),丢弃噪声较多的 H H HH HH
  2. 高频权重生成:将 L H LH LH H L HL HL逐元素相加,经softmax归一化生成高频权重 W high W_{\text{high}} Whigh
  3. 注意力调制:将 W high W_{\text{high}} Whigh L L LL LL进行哈达玛积运算,得到注意力矩阵 A t t Att Att
  4. 特征融合:将 A t t Att Att L L LL LL逐元素相加,得到加权特征 Y Y Y,完成下采样并保留小目标信息。

相关概念解释

  • 离散小波变换:一种将信号分解为不同频率分量(低频近似和高频细节)的数学工具,通过离散化的尺度和位移参数实现。
  • 离散小波子带:信号经离散小波变换后得到的低频(LL)和高频(LH、HL、HH)分量集合,分别对应不同方向的结构和细节信息。
  • 尺度和位移:尺度( a a a)控制小波函数的拉伸/压缩(决定频率高低),位移( b b b)控制小波函数的平移(决定时间/空间位置)。
  • 基本小波函数:构成小波变换基础的函数( ψ \psi ψ),通过缩放和平移生成一系列小波,用于捕捉信号的局部特征。
  • 希尔伯特空间:一种完备的内积空间,为小波函数的分解(如分为尺度函数和小波函数)提供数学框架。
  • 尺度函数:对应信号低频部分的函数( φ \varphi φ),用于捕捉信号的整体趋势和主要结构。
  • 小波函数:对应信号高频部分的函数( ψ \psi ψ),用于捕捉信号的局部细节和边缘特征。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值