文章侧重点
将单目标追踪中效果好的SiamRPN++作为基础,然后将其拓展到RGB-T追踪中。
- 针对双模态中的模态融合问题,SiamCDA分别设计了CA-MF模块融合RGB-TIR的模态特征;
- 针对融合RPN网络生成的K个anchor及其预测位置和置信分数,提出DAS模块挑选出最合适的那个anchor作为预测结果。
网络结构
如图所示,SiamCDA的网络结构主要有两个分支,模板处理分支和当前帧处理分支。具体的处理流程如下:
-
输入:第一帧的RGB-TIR对和当前帧的RGB-TIR对。
-
第一步:模态特征提取:与SiamRPN++的设置一致,这里backbone为ResNet50,将后三段的特征图保留下来,用一个特征金字塔网络生成相同纬度的特征。如下图所示,分别得到第一帧的三阶段RGB特征、三阶段TIR特征和当前帧的三阶段RGB特征、三阶段TIR特征。