Tech Report-2021-SwinTrack: A Simple and Strong Baseline for Transformer Tracking 阅读笔记

菜菜子hoho

已于 2022-05-03 11:20:33 修改

阅读量1.7k

点赞数 2

分类专栏：目标跟踪之Transformer文献阅读文章标签：目标跟踪深度学习 transformer 计算机视觉

于 2022-04-23 09:33:47 首次发布

本文链接：https://blog.youkuaiyun.com/qq_41442511/article/details/124359386

版权

目标跟踪之Transformer文献阅读专栏收录该内容

12 篇文章

订阅专栏

SwinTrack是一个不同于TransT、Stark等混合模型的纯Transformer跟踪算法，它利用Transformer进行特征提取和融合，实现目标与搜索区域的全交互跟踪。网络结构包括Transformer特征提取、Transformer特征融合和预测头。采用concatenated attention以节省计算并减少参数，而非传统的端到端架构，原因是端到端模型在跟踪任务上收敛慢且性能不佳。实验表明，Transformer解码器恢复2D位置信息存在困难。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文地址：
https://arxiv.org/abs/2112.00995
代码地址：
https://github.com/LitingLin/SwinTrack

SwinTrack与TransT、Stark等混合模型不同，是一个完全基于注意力的Transformer跟踪算法。SwinTrack使用Transformer进行特征提取和特征融合，允许目标对象和搜索区域之间的完全交互以进行跟踪。

SwinTrack的整体网络架构：
在这里插入图片描述
SwinTrack的体系结构由基于Transformer的特征提取、基于Transformer的特征融合和预测头三部分组成。基于Transformer的特征提取与以往基于卷积神经网络的骨架不同，但在这个地方存在隐式的孪生网络结构，因为这个Transformer骨架是权重共享的。基于Transformer的特征融合部分实际上也是取代互相关操作的作用，需要注意的是在输入该模块之前首先进行了一个concatenation的操作。

Why concatenated attention?
转换器是序列到序列模型，转换器自然可以接受多模态数据作为输入。与基于交叉注意的融合相比，基于连接的融合可以通过操作组合来节省计算操作，并通过权重共享来减少模型参数。

Why not an end-to-end architecture?
许多基于Transformerbased的模型具有端到端的架构，这意味着该模型直接预测任务的目标，而无需任何后处理步骤。然而，在我们的测试中，端到端模型仍然不适用于我们的任务。在我们的实验中，当应用变换器类型的解码器来直接预测目标对象的边界框时，该模型需要长得多的时间来收敛，并且具有较差的跟踪性能。我们选择的解码器可以在三个方面帮助提高性能:通过预测响应图，我们可以将候选选择任务卸载到手动设计的后处理步骤。通过密集预测，我们可以为模型提供更丰富的监督信号，从而加快训练过程。此外，我们可以使用更多的领域知识来帮助提高跟踪性能，如在响应图上应用Hanning惩罚窗口来引入平滑移动假设。

Why not a target query-based decoder?(没有像DETR一样在解码器处输入搜索图片)
实验中我们还发现传统的变换解码器很难恢复2D位置信息。