MANet++

该文提出了一种名为MANet++的多模态适配网络,用于RGB-T视频的对象跟踪。网络包含通用适配器、模态适配器和实例适配器,旨在通过分层发散损失(HDLoss)减少通用特征的模态差异,增加模态特有信息。多核最大均值差异用于增强对异常值的鲁棒性。实例适配器则针对实例变化进行适应性融合,以处理目标外观动态。实验表明这种方法能有效提升跟踪性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.引言

        为了提高通用适配器和模态适配器的表示,作者希望减少通用适配器中不同模态的特征表示,因为通用特征应该包含共享信息;同时增加模态适配器中差异,因为这些特征应该包含模态特定信息。注意,通用适配器和模态适配器有多层,因此,本文设计了一个分层发散损失(HD Loss),每一层都嵌入一个分层发散损失。(为什么要加入分层发散损失,加了有什么作用,如何加呢。)为了提高对异常值的鲁棒性,采用多核最大均值差异( the multiple kernel maximum mean discrepancy)来测量不同模态的特征的分布差异。因此,在优化过程中,通过反向传播将通用性适配器中的差异最小化,将模态适配器中的差异最大化。

2.方法

2.1网络结构

The pipeline of MANet++ :

MANet++由三部分组成:通用适配器(generality adapter)、模态适配器(modality adapter)、实例感知适配器(instance adapter)。

(1)网络输入分别是RGB和T模态的两个完整的图片。

(2)通过通用适配器和模态适配器提取每个模态的两种类型特征。

(3)然后使用元素加法将每个模态的两种类型的

实例适配器(IA):

        实例物体涉及到不同的类标签、移动模式和外观变化,跟踪算法可能会遇到特定实例的挑战。此外,实例物体的外观变化随时间变化很大。因此,作者设计了一种实例适配器来适应外观变化和特定于实例的挑战。本文的实例适配器与MDNet中的全接连层不同。本文的实例适配器首先为每个模态使用两个全连接的层,然后预测模态权重以实现不同模态的质量感知融合。选择融合位置在第一个全连接层的原因有两点:一是在线更新IA的参数以捕获目标外观动态,因此在IA中集成两种模态来实现实例感知融合。二,在其他层中集成两种模态将引入更多参数,这会影响计算速度,也容易导致过拟合。同时本文还通过实验证明了这一选择的有效性。

论文1:“Object tracking in rgb-t videos using modal-aware attention network and competitive learning,”Sensors, vol. 20, no. 2, p. 393, 2020.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值