[行人重识别论文阅读]AlignedReID: Surpassing Human-Level Performance in Person Re-Identification

最新推荐文章于 2021-10-09 14:35:05 发布

原创

最新推荐文章于 2021-10-09 14:35:05 发布 · 803 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #pytorch #自然语言处理

论文介绍了一种新的深度学习方法AlignedReID，通过结合全局和局部特征学习，利用局部特征间的最短距离进行自动对齐，从而提升Person ReID任务的人类级性能。方法无需额外的监督，仅在测试阶段使用全局特征进行图像相似度计算，结果超越了市场1501和CUHK03数据集的现有水平。

论文地址：
代码地址：

Abstract

摘要部分明确提出了本文的重要思想，利用局部特征学习影响全局特征学习，并指出局部特征的学习方法是通过计算局部特征间的最短距离进而aligned局部特征。

原文：Global feature learning benefits greatlyfrom local feature learning, which performs an align-ment/matching by calculating the shortest path between twosets of local features,

并提出在联合学习后，我们测试阶段仅采用全局特征，进行图像间相似度的计算。
原文：After the joint learning, we only keep the global featureto compute the similarities between images.

最后点题surpassing human-level performance ，强调了它们的实验已经超过了人类的水平。

原文： We also evaluate human-levelperformance and demonstrate that our method is the firstto surpass human-level performance on Market1501 andCUHK03, two widely used Person ReID datasets.

1.Introduction

1.1 介绍目前re-id存在的问题

introduction的部分主要是用来介绍re-id是什么，以及目前re-id 存在的问题与挑战。

首先引出了一个现阶段存在的问题就是，许多CNN的模型只去学习全局特征，而不考虑到模型的空间特征。这就是会导致出现一系列的问题。如下图：
在这里插入图片描述
比如：

图中 a-b 由于不准确的圈人框影响到特征的学习
图中 c-d 由于姿势变化会导致度量学习很困难
图中 e-f 由于遮挡会为学习过程中带来一些无用的局部特征
图中 g-h 由于整体相似过高会对图像的分辨造成困难，也进一步说明了分割局部特征的必要性

1.2 如何解决这个问题

为了解决上述1 2 3 4 说明的问题一些研究开始注重于局部特征的学习。比如说[33,38,43]，它们将人的身体分成固定的几个部分，而不考虑身体部位之间的空间关系，它仍然会导致上述的问题。为了解决该问题，一些工作引入了姿态点的思想去对齐人体部位，但是这个方法会带来许多额外的工作。

原文：which requires additional supervision anda pose estimation step (which is often error-prone)

1.3 我们解决这个问题的方式

而我们文章的abstract部分就写了without requiring extra supervision说明我们方法很好的解决了该问题。

紧接着我们就在下文提出了自己的方法：

In this paper, we propose a new approach, called Aligne-dReID, which still learns a global feature, but performs an automatic part alignment during the learning, without re-quiring extra supervision or explicit pose estimation. In the learning stage, we have two branches for learning a global feature and local features jointly. In the local branch, wealign local parts by introducing a shortest path loss. In theinference stage, we discard the local branch and only extractthe global feature. We find that only applying the globalfeature is almost as good as combining global and local fea-tures. In other words, the global feature itself, with the aidof local features learning, can greatly address the drawbackswe mentioned above, in our new joint learning framework.In addition, the form of global feature keeps our approachattractive for the deployment of a large ReID system, with-out costly local features matching.

简单翻译：在这篇文章中，我们提出了一个新方法叫做aligned-reid，这种方法仍然学习全局特征，但是在训练阶段我们使用一种自动对齐局部特征的方式，这种方式不需要额外的监控和额外的姿势数据。在训练阶段，我们有两个分支，分别是global feature 分支和 local feature 分支，我们会将两个分支进行联合训练（具体的方式在下文会有）。并说我们在测试阶段抛弃了局部特征分支，仅使用了全局特征分支。经过实验，我们发现仅使用全局特征分支进行训练和联合训练的效果一样好。

在本段的最后提出了在本篇文章中，我们使用了(mutual learning approach)相互学习的方式，让两个模型更好的学习彼此。

2.Related Work

在该阶段会介绍本篇文章中所用到的所有方法（方法的发展历程与具体实现我会在其它文章单独详细写，写后会补充链接）：

Metric Learning
Feature Alignments
Mutual Learning
Re-ranking

3.Our Approach

在此部分我们会详细讲述alignedReId的实现方法.
首先看一下我们的pipeline:
在这里插入图片描述
我详细的拿数据描述协一下流程：
首先N 张 224x224的图片输入到CNN（在本文中我们使用的是Resnet50）中, 得到了(N,2048,7,7)结构的特征（N为batchsize,2048为channels，第一个7为h，第二7为w)。将得到的特征分别进行horizontal pooling 与 global pooling，目的就是为了分别得到局部特征与全局特征。
global feature 部分：
global 部分计算其实就是典型的metric learning 过程，对当前的（N,2048,7,7)的结构给一个 kernel_size =（7，7）的卷积核，这样我们就会得到其全局特征的池化，得到（N，2048，1，1）的结构。此时我们再次进行一个flatten操作得到(N,2048)的结构，即为我们的global feature。

local feature 部分：
对拿到的数据进行一次BN批处理，后接上relu激活函数，这两步的目的都是为了保持数据的正常分布，避免梯度降为0以及过拟合问题。经过这两步后的数据还是（N,2048,7,7) 我们此时将该数据传给pooling，注意这个pooling 是水平方向的 pooling。因为我们的h=7,所以我们将卷积核的size设置成