2023CVPR：Visual Prompt Multi-Modal Tracking-优快云博客

本文链接：https://blog.youkuaiyun.com/Koicencen/article/details/145808977

项目源码：https://github.com/jiawen-zhu/ViPT

Abstract

本文提出视觉提示多模态跟踪 ViPT，通过学习与模态相关的提示，使得冻结的与训练模型适应各种下游任务。

仅基于RGB序列的目标跟踪在一些复杂场景（如极端光照、背景杂乱和运动模糊）中仍容易失败。因此，多模态跟踪因其能够通过利用不同模态之间的互补性来实现更稳健的跟踪而受到越来越多的关注。然而，作为RGB基础跟踪的下游任务，多模态跟踪面临的主要问题是缺乏大规模数据集。由此产生了用预训练的RGB跟踪器在目标任务上微调的方法。

这些方法仍存在问题：（i）全量微调模型耗时且效率低下，参数存储负担大，对众多应用不友好，部署繁琐。（ii）由于标注样本有限，全量微调无法获得泛化表示，无法利用在大规模数据集上预训练的基础模型的知识。

直观上，多模态和单RGB模态跟踪之间存在很大的继承性，应在特征提取或注意力模式上共享大部分先验知识。基于此提出了该模型ViPT，冻结整个基础模型，仅学习少量特定于模态的视觉提示，最大限度地继承了在大规模训练的RGB基础模型参数。

创新点：

面向下游任务的多模态跟踪，适用于RGB-D、RGB-T和RGB-E跟踪
设计了一种模态互补提示器（MCP），为面向任务的多模态跟踪生成有效的视觉提示。辅助模态输入被简化为少量提示，而不是设计额外的网络分支。
达到sota

Method

在这里插入图片描述

问题设定

对于基础RGB跟踪：问题可以描述为：学习一个跟踪器F-RGB

在这里插入图片描述

其中X-RGB表示的是RBG视频帧，B-0表示初始帧的搜索框

B表示跟踪器输出的后续帧的目标框

对于多模态视觉跟踪问题，问题可以描述为学习一个跟踪器 F-MM

在这里插入图片描述

X-A是增加的每一帧的模态信息

基础模型

跟踪器可以分解为一个特征提取函数f和一个box head 将特征映射为目标框。

在跟踪开始的第一帧，数据提供的一个初始目标框 input exemplar 和搜索帧被embed成patch，然后flatten为一维token。

在这里插入图片描述

这里解释一下：其实做的事情相当于ViT中的embed 部分，将input exemplar分为多个patch，每个patch都映射为一个embedding，同样的，整张图象X-RGB进行同样的处理。D表示的就是在映射后embedding的维度，这是由卷积时卷积核的数量决定的。Nz和Nx 不同是由于 Z-RGB 和 X-RGB 图像的大小不一样，自然，分成的patch数量也不一样，最终得到的embedding数量也不一样。

然后将这些embedding concat之后输入transformer层里进行encode，完成特征提取和特征融合。