MANet++

最新推荐文章于 2025-03-07 09:53:41 发布

飞天小女侠~

最新推荐文章于 2025-03-07 09:53:41 发布

阅读量654

点赞数 1

分类专栏：论文阅读

本文链接：https://blog.youkuaiyun.com/xuan971130/article/details/119489215

版权

论文阅读专栏收录该内容

22 篇文章

订阅专栏

该文提出了一种名为MANet++的多模态适配网络，用于RGB-T视频的对象跟踪。网络包含通用适配器、模态适配器和实例适配器，旨在通过分层发散损失（HDLoss）减少通用特征的模态差异，增加模态特有信息。多核最大均值差异用于增强对异常值的鲁棒性。实例适配器则针对实例变化进行适应性融合，以处理目标外观动态。实验表明这种方法能有效提升跟踪性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.引言

为了提高通用适配器和模态适配器的表示，作者希望减少通用适配器中不同模态的特征表示，因为通用特征应该包含共享信息；同时增加模态适配器中差异，因为这些特征应该包含模态特定信息。注意，通用适配器和模态适配器有多层，因此，本文设计了一个分层发散损失（HD Loss），每一层都嵌入一个分层发散损失。（为什么要加入分层发散损失，加了有什么作用，如何加呢。）为了提高对异常值的鲁棒性，采用多核最大均值差异（ the multiple kernel maximum mean discrepancy）来测量不同模态的特征的分布差异。因此，在优化过程中，通过反向传播将通用性适配器中的差异最小化，将模态适配器中的差异最大化。

2.方法

2.1网络结构

The pipeline of MANet++ :

MANet++由三部分组成：通用适配器（generality adapter）、模态适配器（modality adapter）、实例感知适配器（instance adapter）。

（1）网络输入分别是RGB和T模态的两个完整的图片。

（2）通过通用适配器和模态适配器提取每个模态的两种类型特征。

（3）然后使用元素加法将每个模态的两种类型的

实例适配器（IA）：

实例物体涉及到不同的类标签、移动模式和外观变化，跟踪算法可能会遇到特定实例的挑战。此外，实例物体的外观变化随时间变化很大。因此，作者设计了一种实例适配器来适应外观变化和特定于实例的挑战。本文的实例适配器与MDNet中的全接连层不同。本文的实例适配器首先为每个模态使用两个全连接的层，然后预测模态权重以实现不同模态的质量感知融合。选择融合位置在第一个全连接层的原因有两点：一是在线更新IA的参数以捕获目标外观动态，因此在IA中集成两种模态来实现实例感知融合。二，在其他层中集成两种模态将引入更多参数，这会影响计算速度，也容易导致过拟合。同时本文还通过实验证明了这一选择的有效性。

论文1：“Object tracking in rgb-t videos using modal-aware attention network and competitive learning,”Sensors, vol. 20, no. 2, p. 393, 2020.