RGBT Tracking via Progressive Fusion Transformerwith Dynamically Guided Learning

文章介绍了一种新的RGBT跟踪方法,ProFormer,通过渐进式融合Transformer解决模态间差异问题,并结合动态引导学习算法优化单模态分支。该方法在RGBT210、RGBT234、LasHeR和VTUAV数据集上表现出色。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

通过具有动态引导学习功能的渐进式融合变压器进行 RGBT 跟踪

Abstract: 

        现有的基于 Transformer 的 RGBT 跟踪方法要么使用交叉注意力来融合两种模态,要么使用自注意力和交叉注意力来对模态特定信息和模态共享信息进行建模。然而,模态之间显着的外观差距限制了融合过程中某些模态的特征表示能力。为了解决这个问题,我们提出了一种名为 ProFormer 的新型渐进式融合变压器,它逐步将单模态信息集成到多模态表示中,以实现鲁棒的 RGBT 跟踪。特别是,ProFormer首先使用自注意力模块来协作提取多模态表示,然后使用两个交叉注意力模块分别将其与双模态的特征进行交互。这样,可以在多模态表示中很好地激活模态特定信息。最后,使用前馈网络融合两个交互的多模态表示,以进一步增强最终的多模态表示。此外,RGBT跟踪器现有的学习方法要么将多模态特征融合为一个以进行最终分类,要么通过竞争性学习策略利用单模态分支和融合分支之间的关系。然而,它们要么忽略单模态分支的学习,要么导致一个分支无法得到很好的优化。为了解决这些问题,我们提出了一种动态引导学习算法,自适应地使用表现良好的分支来指导其他分支的学习,以增强每个分支的表示能力。大量实验表明,我们提出的 ProFormer 在 RGBT210、RGBT234、LasHeR 和 VTUAV 数据集上设置了新的最先进性能。

Introduction:

        RGB 和热线索的聚合使视觉跟踪器能够在照明变化、背景杂乱和恶劣天气等具有挑战性的场景中实现准确和稳健的性能。因此,RGBT跟踪近年来在视觉跟踪界引起了越来越多的关注。在深度学习技术[1]、[2]和大规模基准数据集[3]-[6]的推动下,这一研究领域正在迅速发展。

        一些现有的工作[7]、[8]使用简单的加法和串联操作来直接融合两种模态的特征。还有一些作品[9]-[11]采用注意力机制来学习每种模态对双模态自适应融合的贡献。基于动态卷积的 RGBT 跟踪器 [12]、[13] 设计动态模态感知滤波器生成网络,通过自适应调整卷积核来增强 RGB 和热数据之间的消息通信。此外,一些工作[11]、[14]、[15]探索了几种融合策略(包括像素级、特征级和决策级)来提高跟踪性能。然而,这些方法缺乏全局上下文建模能力,导致 RGBT 跟踪的性能有限。

        近年来,Transformer在计算机视觉领域取得了令人瞩目的成功,并被引入RGBT跟踪中。一些方法[16]、[17]直接使用两个或多个交叉注意力网络来融合两种模态的特征。梅等人。 [18]尝试使用自注意力和交叉注意力网络对模态的特定和共享信息进行建模。肖等人。 [19]提出了一种基于属性的渐进融合网络,它可以增强融合属性特征中的模态特定信息。

        上述方法虽然取得了一定的性能提升,但并不如应用于其他视觉领域的 Transformer 那样辉煌。主要原因是模态之间的显着差异(即双模态之间的固有差异以及不同模态质量引起的差异)抑制了融合过程中模态的特征表示。具体来说,各种模态之间的差异损害了现有的基于 Transformer 的跟踪,原因如下:1)我们发现,如果将交叉注意力直接应用于两种模态的融合,异构信息将会丢失。如图2所示,当两种模态存在显着差异时,广泛使用的交叉注意力方案无法很好地融合对偶特征。这可能是由于交叉注意力计算两种模态之间的相似性并倾向于提取共享信息所致。表四的实验结果也验证了这一假设。 2)两种模态的特征难以协同表示,导致模态互补信息无法充分利用。特别是,通过上述方法明确建模的模态特定和模态共享信息没有集成到有效的多模态表示中。

         

        为了解决上述问题,我们提出了一种新颖的渐进融合 Transformer 框架,该框架逐步将单模态信息集成到融合特征中,以实现鲁棒的 RGBT 跟踪。具体来说,ProFormer分为三个融合阶段:多模态自注意力融合、模态特定交叉注意力融合和多模态增强融合。这些阶段可以逐渐将两种模式的丰富特征整合到融合分支中。首先,ProFormer 使用自注意力模块来协作提取多模态表示。然后,使用两个交叉注意模块分别与前一阶段的融合特征和双模态的特征进行交互。这样,可以在多模态表示中很好地激活模态特定信息。最后,使用前馈网络融合两个交互的多模态表示,以进一步增强最终的多模态表示。值得注意的是,这三个阶段都在协同对两种模态的信息进行建模,从而解决现有基于 Transformer 的 RGBT 跟踪器无法以协作方式很好地表示两种模态的问题。简而言之,ProFormer 既可以很好地处理融合特征中特定模态的激活,又可以协同表示双模态的信息。

        如何利用融合分支和特定模态分支之间的关系也是RGBT跟踪的一个关键点。大多数现有的RGBT跟踪方法[5]、[9]、[10]、[16]、[20]、[21]直接融合两种模态的特征进行最终分类,但这些方法可能忽略了学习单一模态分支。一些方法[22]、[23]直接使用决策级融合策略自适应地加权两种模态的分类分数,然而,它们忽略了模态之间的协作学习。张等人。 [24]尝试通过竞争性学习策略来利用单峰分支和融合分支之间的关系。然而,竞争性学习策略可能会导致分支在竞争中失败并妨碍其得到很好的优化。为了解决这些问题,我们设计了一种动态引导学习算法,以自适应地利用表现较好的分支作为教学其他分支的指导。在训练阶段,我们保留融合分支和特定模态分支的分类头,然后通过比较它们的分类损失来确定哪个分支表现更好。最后,我们使用动态引导的学习损失来使性能较好的分支(即较小的分类损失)指导其他性能较差的分支(即较大的分类损失)的学习。这种动态引导学习算法可以有效提高每个分支的表示能力,从而提供具有强大多模态表示的鲁棒RGBT跟踪。

        我们的贡献可以总结如下: • 我们提出了一种有效的多模态融合框架,该框架基于一种名为 ProFormer 的新型渐进式融合 Transformer,它逐步将单模态表示集成为鲁棒的多模态表示。该框架有效地处理了 RGBT 跟踪中因显着模态差距而导致的有限特征表示问题。 • 我们设计了一种新的动态引导学习算法,它自适应地利用表现较好的分支作为教学其他分支的指导,以很好地优化模态融合分支和特定模态分支。

related work:

        1.RGBT tracking

        2.Multimodal Fusion with Transformer

Methodology:

        如图3所示,我们提出的ProFormer主要包含特征提取模块、渐进融合Transformer模块和跟踪头。具体来说,两种模式均采用 ResNet50 [1] 作为骨干网络。提取 RGB 和 Thermal 特征后,使用所提出的渐进融合 Transformer 模块来融合它们。这种渐进融合 Transformer 模块分为三个阶段,逐步将两种模式的丰富特征集成到融合分支中。在第一阶段,我们将两种模态的特征添加到一个统一的特征表示中,并将它们与位置编码结合起来作为令牌嵌入。引入多头自注意力模块来编码添加的特征,以协作表示两种模态的特征。同时,我们将 RGB/Thermal 特征输入到 TransEncoder 网络中,以获得特定于模态的全局特征。在第二阶段,我们使用两个交叉注意模块将融合特征与双模态特征进行交互,以增强融合特征中的模态特定信息。具体来说,将融合特征视为查询输入,并采用单峰特征作为交叉注意力模块的键和值输入。在第三阶段,添加两个包含模态特定信息的融合特征并进行归一化,然后将其输入前馈层作为最终的特征表示。 RGB、热和融合特征将在训练阶段输入到三个分类器中。除了用于目标对象分类和回归的标准损失函数之外,我们还设计了动态引导学习算法,该算法可以自适应地使用性能良好的分支来指导其他分支的学习,以提高每个分支的表示能力。通过将我们提出的框架装备到基线跟踪器 ToMP [36] 的模板和搜索分支中,我们可以在多个跟踪基准数据集上实现高性能 RGBT 跟踪。

### RGBT 跟踪技术概述 RGBT跟踪是一种融合可见光(RGB)和热成像(Thermal Infrared, TIR)数据的计算机视觉方法。该技术通过结合两种模态的信息来提高目标检测和跟踪性能,尤其适用于复杂场景下的应用[^1]。 #### 技术背景与挑战 在计算机视觉领域,单一传感器的数据往往难以应对复杂的环境条件。例如,在低光照条件下,RGB相机的效果会显著下降;而在烟雾、灰尘或其他遮挡物存在的情况下,热成像可能更有效。因此,RGBT跟踪旨在利用两者的互补特性,克服各自单独使用的局限性。然而,这种跨模态融合也带来了新的挑战,包括但不限于: - **特征表示差异**:RGB图像通常具有丰富的纹理细节,而热成像则更多关注温度分布,两者之间的语义差距较大。 - **噪声干扰**:不同传感器可能会引入不同的噪声模式,这增加了算法设计的难度。 - **计算成本**:实时处理双模态输入需要高效的模型架构和优化策略。 #### 当前研究进展 近年来,随着深度学习的发展,基于卷积神经网络(CNNs)的方法逐渐成为主流。这些方法可以分为两类:早期融合和晚期融合。前者是在较低层次上将两个模态的数据结合起来,后者则是分别提取各自的特征后再进行决策级融合[^1]。 一种典型的实现方式如下所示: ```python import torch from torchvision import models class RGVTTracker(torch.nn.Module): def __init__(self): super(RGVTTracker, self).__init__() self.rgb_branch = models.resnet18(pretrained=True) self.tir_branch = models.resnet18(pretrained=True) def forward(self, rgb_input, tir_input): rgb_features = self.rgb_branch(rgb_input) tir_features = self.tir_branch(tir_input) fused_feature = torch.cat((rgb_features, tir_features), dim=1) output = self.fusion_layer(fused_feature) # 假设有一个融合层 return output ``` 此代码片段展示了一个简单的双分支结构,其中每个分支负责处理对应的模态数据,并最终在一个高层次上完成特征融合。 #### 数据集与竞赛支持 Anti-UAV比赛中的RGBT Tracking赛道提供了一定规模的真实世界数据集,这对于验证新提出的算法非常有价值。具体来说,2020年的赛事作为首届活动,吸引了大量研究人员参与并提交方案[^1]。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值