[论文阅读] Beyond part models: Person retrieval with refined part pooling

最新推荐文章于 2023-02-23 22:17:10 发布

原创

最新推荐文章于 2023-02-23 22:17:10 发布 · 528 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#person reid

本文探讨了在行人重识别任务中，利用精炼部分池化(Refined Part Pooling)改进统一水平分割方法，以提高特征的一致性和排除离群点。通过backbone网络提取特征后，对图像水平分割并进行平均池化，然后通过全卷积层降低维度。尽管两种变体的性能不佳，但加入RPP后在Market-1501数据集上的mAP有显著提升。此外，文章提出部分划分应考虑边界曲折，并介绍了包含part classifier的训练过程。

Beyond part models: Person retrieval with refined part pooling

Introduction

在行人重识别这个问题上，从人的不同身体部位提取得到的特征比全局特征更加精细，这些细粒度的特征对于行人的判断往往是更具决定性的。有的方法采用已有的人体姿态估计的方法，识别出人的部位，进而去分别提取特征。虽然这样的行人分割特征提取方法可行，但是效用并不高。首先是由于两个任务的数据集是不同的，也就意味着人体姿态估计的泛化效果未必理想。所以，构建一个这样的数据库（既有行人id，又有行人关节点）还是很有意义的一项工作。所以在目前的一些工作来看，一种水平分割的方式得到的结果更加优异。

本文展示了一种分割的baseline，即统一将人水平分割成6部分；并且针对这样统一的分割方式，采用一种refined part pooling 的方式优化每一部分，使每一部分之内更加相似，保证一致性，排除离群点。

算法介绍

基本框架

下图是模型的基本框架：

首先输入图片（规定的大小为384*128，长宽比3:1）经过一个backbone network提取特征。这个backbone network可以是Google Inception或者ResNet，得到一个C*M*N(2048*24*8)的特征图。将特征图水平分为6块，也就是每块4*8，对每一块单独进行average pooling，得到g，再通过一个核为1的全卷积层，将特征降维成256维，得到h，分别用这6组特征进行分类。

以上的算法流程有两个变体，一是对6组h特征取平均，再进行分类，二是六个分类器一同优化，分享参数。但这两个变体的效果都不佳。另外使用高维的g特征去分类比低维的h特征效果好一点，但计算成本更高。

上述基本流程，在Market-1501数据集上rank-1为92.3%(g)和92.4%(h)。而加上RPP的优化提高了1.5%和0.7%的，感觉优化地并无多大差。但是mAP从77.3%提升到81.6%，有了一个较大的提升。