MixFormerV2: Efficient Fully Transformer Tracking
论文地址:https://arxiv.org/pdf/2305.15896
动机:
这篇论文的研究动机是为了解决目前基于Transformer的跟踪器在实际应用中的效率问题,特别是在GPU和CPU平台上的推理效率仍然是一个难题。为了解决这个问题,该论文提出了一种名为MixFormerV2的全Transformer跟踪框架,没有任何密集卷积操作和复杂的得分预测模块。其关键设计是引入四个特殊的预测tokens,并将它们与目标模板和搜索区域的tokens连接起来,然后在这些混合tokens序列上应用统一的Transformer骨干网络。这些预测tokens能够通过混合注意力捕捉目标模板和搜索区域之间的复杂相关性。基于它们,我们可以通过简单的MLP头轻松预测跟踪框并估计其置信度分数。
贡献
- 提出了第一个不需要任何卷积运算的完全变压器跟踪框架,称为MixFormerV2,产生了更统一和更高效的跟踪器。
- 提出了一种新的基于蒸馏的模型简化范式,使MixFormerV2更加有效和高效,可以在具有GPU或CPU的平台上实现高性能跟踪。
主要内容
本文提出了一种名为MixFormerV2的高效全Transformer跟踪框架,它不仅能够保持高精度,而且能够在GPU和CPU平台上实现高效部署。其核心设计是引入四个特殊的预测tokens,并将它们与目标模板和搜索区域的tokens连接起来,然后在这些混合的tokens序列上应用统一的Transformer骨干。这些预测tokens能够通过混合的注意力机制来捕捉目标模板和搜索区域之间的复杂关系。此外,本文还提出了一种基于蒸馏的模型压缩范式,包括稠密到稀疏的蒸馏和深到浅的蒸馏,前者旨在将知识从基于密集头的MixViT转移到我们的fully transformer跟踪器上,而后者则用于修剪骨干的一些层,以进一步提高MixFormerV2的效率。
实现细节
为了避免密集角点头和复杂的分数预测模块,提出了一种新的全变压器跟踪框架MixFormerV2,无需任何密集卷积运算。MixFormerV2产生了一个非常简单高效的体系结构,它由混合tokens序列上的Transformer主干和可学习预测tokens上的两个简单的MLP头组成。具体来说,引入了四个特殊的可学习预测标记,并将它们与目标模板和搜索区域的原始标记连接起来。就像标准ViT中的CLS令牌一样,这些预测标记能够捕获目标模板和搜索区域之间的复杂关系,作为后续回归和分类的紧凑表示。基于它们,我们可以通过简单的 MLP 头轻松预测目标框和置信度分数,从而产生高效的完全Transformer跟踪器。MLP 头直接回归四个框坐标的概率分布,在不增加开销的情况下提高了回归精度。
为了进一步提高MixFormerV2的效率,提出了一种新的基于蒸馏的模型约简范式,包括密集到稀疏蒸馏和深到浅蒸馏。密集到稀疏蒸馏旨在将知识从基于密集头的MixViT转移到我们的fully transformer跟踪器。由于 MLP 头基于分布的回归设计,可以很容易地采用 logits 模仿策略将 MixViT 跟踪器蒸馏到我们的 MixFormerV2。基于表2中的观察,还利用了从深到浅的蒸馏来修剪MixFormerV2。

我们设计了一种新的渐进式深度剪枝策略,遵循一个关键原则,即限制学生和教师跟踪器的初始分布尽可能相似,从而增强知识传递的能力。具体地说,在冻结的教师模型的指导下,复制的教师模型的某些特定层被逐渐删除,我们使用修剪后的模型作为我们的学生初始化。对于CPU实时跟踪,我们进一步引入了一个中间教师模型,以弥补大教师和小学生之间的差距,并根据所提出的蒸馏范式修剪MLP的隐性凹陷。
基于提出的模型简化范例,我们实例化了两种类型的MixFormerV2跟踪器,MixFormerV2- B和MixFormerV2- S。如图1所示,MixFormerV2比以前的跟踪器在跟踪精度和推理速度之间实现了更好的权衡。

具体实现
1、Fully Transformer Tracking: MixFormerV2
所提出的MixFormerV2是一个fully transformer跟踪框架,没有任何卷积运算和复杂的分数预测模块。它的主干是一个关于三种类型的混合标记序列的普通Transformer:目标模板标记、搜索区域标记和可学习预测标记。然后,将简单的MLP头放置在顶部,以预测盒子坐标的概率分布和对应的目标质量分数。MixFormerV2首次有效地删除了定制的卷积分类和回归头,从而简化了跟踪流程,从而产生了更统一、更高效和更灵活的跟踪器。总体架构如图2所示。

通过输入模板标记、搜索区域标记和可学习预测标记,MixFormerV2以端到端的方式预测目标边界框和质量分数。
Prediction-Token-Involved Mixed Attention
与MixViT中原有的slimming mixed attention相比,关键的区别在于引入了特殊的可学习预测tokens,用于捕捉目标模板和搜索区域之间的相关性。这些预测标记可以逐步压缩目标信息,并用作后续回归和分类的紧凑表示。具体来说,给定多个模板、搜索和四个可学习的预测标记的串联标记,我们将它们传入N层预测标记参与的混合注意力模块(P-MAM)。我们使用 qtq_tqt、ktk_tkt 和 vtv_tvt 来表示注意力、qsq_sqs、ksk_sks 和 vsv_svs 的模板元素(即查询、键和值)来表示搜索区域,qeq_eqe、kek_eke 和 vev_eve 来表示可学习的预测标记。P-MAM 可以定义为:
ktse=Concat(kt,ks,ke),vtse=Concat(vt,vs,ve),Attent=Softmax(qtktTd)vt,Attens=Softmax(qsktseTd)vtse,Attene=Softmax(qektseTd)vtse \begin{aligned} k_{t s e}=\mathrm{Concat}(k_{t},k_{s},k_{e}),\\ v_{t s e}=\mathrm{Concat}(v_{t},v_{s},v_{e}), \\ \mathrm{Atten}_{t}=\mathrm{Softmax}({\frac{q_{t}k_{t}^{T}}{\sqrt{d}}})v_{t},\\ \mathrm{Atten}_{s}=\mathrm{Softmax}({\frac{q_{s}k_{t s e}^{T}}{\sqrt{d}}})v_{t s e},\\ \mathrm{Atten}_{e}=\mathrm{Softmax}({\frac{q_{e}k_{t s e}^{T}}{\sqrt{d}}})v_{t s e} \end{aligned} ktse=Concat(kt,ks,ke),vtse=Concat(vt,vs,ve),Attent=Softmax(dqtktT)vt,Attens=Softmax(d

MixFormerV2是一个全Transformer跟踪框架,解决了基于Transformer跟踪器在GPU和CPU平台上的效率问题。通过引入预测tokens和混合注意力机制,实现了高效跟踪。同时,提出基于蒸馏的模型简化范式,包括稠密到稀疏和深到浅的蒸馏,以提高效率和精度。
最低0.47元/天 解锁文章
852

被折叠的 条评论
为什么被折叠?



