【2022 ECCV】《Unstructured Feature Decoupling for Vehicle Re-Identification》-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_40470044/article/details/126422441

《Unstructured Feature Decoupling for Vehicle Re-Identification》

文章目录

1.Abstract
2.Introduction
3.Methodology

1.Abstract

在车辆重识别任务中(Re-Identification,ReID)，由于目标姿态和视角等变化导致深度特征无法对齐。以前的方法通过预定义车辆的部件（例如：标志，窗户等）或属性来对齐特征。这些方法由于需要人工手动标注从而计算效率较低。为了在不需要额外标注的情况下对齐深度特征，本文提出了一个非结构特征解耦网络（Unstructured Feature Decoupling Network，UFDN），该网络由一个基于Transformer的特征解耦Head（transformer-based feature decomposing head，TDH）以及一个新的基于聚类解耦约束（cluster-based decoupling constraint，CDC）所组成。之前的解耦方法所使用的是结构知识，我们目的是获得更多的非结构化特征，其具体多样判别性如图1所示。分解头部的自注意机制有助于模型在全局范围内初步学习判别分解特征。为了进一步学习多样但对齐的解耦特征，我们提出了一个基于聚类的解耦约束，其由一个多样性约束和一个对齐约束所组成。更进一步，我们将对齐约束改进为调整约束来消除异常特征的负面影响，这种异常特征不能在语义上对齐到集群中。广泛的实验表明，所提出的UFDN 在三个流行的Vehicle ReID 基准测试中具有CNN和Transformer主干网，达到了最先进的性能。代码链接: link.
车辆特征的解耦和对齐过程说明。

2.Introduction

给定一个查询车辆图像，Vehicle ReID旨在从包含由不相交的摄像机捕获的图像的图库中检索相同车辆的图像。随着深度学习和大规模车辆重识别技术的发展，车辆重识别技术在性能上取得了巨大的提升并广泛运用在智慧城市系统中。然而，处理姿势引起的特征不对齐任具有一定的挑战性。
该文章研究了特征隐式对齐，首先将特征解耦成非结构部件，然后在不使用额外标注的情况下对齐这些特征。然而，主要存在两个挑战：1、如何在不使用额外结构线索的情况下解耦特征？2、如何学习多样但对齐的解耦特征？
本文提出了一个Transformer-based decomposing head（TDH）模块来将车辆特征解耦为非结构部件。TDH通过从通道维度解耦特征图，其保持了每个解耦特征的全局接受域。我们将每个解耦特征图组输入到一个改进的transformer block中，然后子注意力机制能够自动在全局角度编码具有判别性特征。因为特征图不能简单地划分为固定的条纹或网格，解耦特征在没有额外线索的情况下能够隐式学习判别性语义信息。
除了隐式解耦模块，我们提出了一个新的基于聚类的解耦约束（CDC），以无标注的形式提高分解特征的多样性和一致性。CDC的目的是将分类的特征聚类成组，其中包括：

多样性约束：分解特征应当是相互正交的，这样就促使它们关注不同的区域。
对齐约束：分解的特征应当靠近相关的聚类中心，以便彼此对齐。

然而，一些异常特征在语义中并不能对齐聚类中心，会导致无用甚至降低准确率。为了解决这一问题，本文通过过滤异常特征来减轻它们所带来的负面影响并将最后的输出定义为解耦特征。文章所提出的UFDN旨在保证一维特征的多样性。
于此同时，我们从不同的角度对样本进行可视化，如图1 所示。并发现相应的解耦特征倾向于关注相似的显著区域(例如，第一部分的灯光信息以及和第二部分的前端信息等)。本文方法所提出的方法称为非结构化特征解耦网络(UFDN)，并在具有两个不同主干(ResNet和swing -transformer)的三个流行基准上进行实验，以评估UFDN的有效性。
本文的主要贡献如下：

本文提出UFDN模型其目的通过在无人为标注的情况下将特征解耦为非结构，多样以及对齐部件以减轻车辆重识别任务中深度特征不齐现象。
基于transofrmer的非结构化特征分解头可以在全局范围内从通道维度将特征分解成若干组，比局部指定的方法具有更强的鲁棒性。
我们提出了基于聚类的解耦约束来保证解耦特征在没有人为标注的情况下能够保证多样以及对齐，此外减轻外部异常值的影响。
在没有人为标注的情况下，本文所提出的UFDN在三个benchmark上均优于其他方法。

3.Methodology

图2为UFDN的示意图，其主要由基于transformer的特征解耦头和基于聚类的解耦约束所组成。

3.1Backbone and Symbol Definition

给定一个输入图像 $X$ ，主干输出一个特征图，将该特征图重新调整为一个基础特征 $F_{base} \in \mathcal{R}^{n \times c}$ ，这里 $\times W$ 和 $c$ 分别表示空间维度和通道维度。然后，本文按照通道维度将 $F_{base}$ 分解成 $k$ 个组则获得一个特征集合 $F_{p} \in \mathcal{R}^{k \times n \times m}$ ，这里 $\times m$ 。这里的主干网络可以是基于CNN的也可以是基于Transformer的。

3.2Transformer-based Featuren Decomposing Head

基于Transformer的特征解耦头(TDH)编码了每个解耦特征的非结构信息 $F_{p}*{i} \in \mathcal{R}^{n \times m}$ , $i = 1, 2, 3, ..., k$ 。如图2所示， $k$ 个分解令牌 $T^{i} \in \mathcal{R}^{m}$ 分别预挂载在相关通道特征上 $F_{p}^{i} \in \mathcal{R}^{n \times m}$ 。输入序列 $z_{0}^{i}=[T^{i},F_{p}^{i}]$ 被输入到基于transformer特征解耦头中。
如图三所示，TDH共包含了L个transformer blocks，每个block包含一个多头解耦注意力模块以及一个MLP模块。由于 $F_{p}^{i}$ 是深层特征其很好地编码了判别性信息，我们依照[1]设计只更新解耦令牌 $T^{i}$ 来重新聚合 $F_{p}^{i}$ 。 $F_{p}^{i}$ 在训练过程中被冻结以减少计算消耗。给定义一个输入序列 $z_{0}^{i}=[T^{i},F_{p}^{i}]$ ，本文将TDH当中第 $l - 1$ 个输出解耦令牌记作 $T_{l-1}^{i}$ 并且输入第 $l$ 个block的输入序列记作 $z_{l-1}^{i}=[T_{l-1}^{i},F_{p}^{i}]$