摘要
目标重识别的关键就是提取鲁棒的特征!
之前方法的弊端:卷积神经网络(CNN)的方法一次只处理一个局部邻域,并且由于卷积和下采样算子(如池化和跨卷积)导致细节信息丢失。
提出:纯基于transformer的目标ReID框架。
具体来说:我们首先将图像编码为一系列补丁,并通过一些关键改进构建基于transformer的强baseline,这在使用基于cnn的方法的几个ReID基准上取得了有竞争力的结果。为了进一步增强transformer背景下特征学习,设计了两个新的模块。
(i)提出jigsaw patch module (JPM),通过shift和patch shuffle操作对patch嵌入进行重新排列,生成鲁棒特征辨别能力提高,覆盖面更广。
(ii)引入侧面信息嵌入(SIE),通过插入可学习的嵌入来合并这些非视觉线索,以减轻对摄像机/视图变化的特征偏差。
这是第一个采用纯transformer进行ReID研究的工作。
引言
目标再识别(Object reidentification, ReID)是将一个特定的物体在不同的场景和摄像机视图中关联起来。提取鲁棒性和判别性特征是ReID的一个重要组成部分,基于cnn的方法一直是ReID研究的重点。
cnn有两个问题没有解决:
1 探索全局范围内丰富的结构模式是关键的,但是cnn关注的主要是小的判别区域。注意力机制大多数都嵌入到深层,并不能解决CNN的原则问题。基于注意力的方法仍然偏爱大的连续区域,并且很难提取多种多样的可区分的部分。图一
2 细粒度信息的重要性,然而,下采样算子(如pooling和stride convolution)的CNN降低了输出特征图的空间分辨率,极大地影响了对外观相似物体的识别能力。图二