1.引言
为了提高通用适配器和模态适配器的表示,作者希望减少通用适配器中不同模态的特征表示,因为通用特征应该包含共享信息;同时增加模态适配器中差异,因为这些特征应该包含模态特定信息。注意,通用适配器和模态适配器有多层,因此,本文设计了一个分层发散损失(HD Loss),每一层都嵌入一个分层发散损失。(为什么要加入分层发散损失,加了有什么作用,如何加呢。)为了提高对异常值的鲁棒性,采用多核最大均值差异( the multiple kernel maximum mean discrepancy)来测量不同模态的特征的分布差异。因此,在优化过程中,通过反向传播将通用性适配器中的差异最小化,将模态适配器中的差异最大化。
2.方法
2.1网络结构
The pipeline of MANet++ :
MANet++由三部分组成:通用适配器(generality adapter)、模态适配器(modality adapter)、实例感知适配器(instance adapter)。
(1)网络输入分别是RGB和T模态的两个完整的图片。
(2)通过通用适配器和模态适配器提取每个模态的两种类型特征。
(3)然后使用元素加法将每个模态的两种类型的
实例适配器(IA):
实例物体涉及到不同的类标签、移动模式和外观变化,跟踪算法可能会遇到特定实例的挑战。此外,实例物体的外观变化随时间变化很大。因此,作者设计了一种实例适配器来适应外观变化和特定于实例的挑战。本文的实例适配器与MDNet中的全接连层不同。本文的实例适配器首先为每个模态使用两个全连接的层,然后预测模态权重以实现不同模态的质量感知融合。选择融合位置在第一个全连接层的原因有两点:一是在线更新IA的参数以捕获目标外观动态,因此在IA中集成两种模态来实现实例感知融合。二,在其他层中集成两种模态将引入更多参数,这会影响计算速度,也容易导致过拟合。同时本文还通过实验证明了这一选择的有效性。
论文1:“Object tracking in rgb-t videos using modal-aware attention network and competitive learning,”Sensors, vol. 20, no. 2, p. 393, 2020.