paper下载地址:http://www.yaohantao.com/cv/paper_671.pdf
code下载地址:https://github.com/coldrainyht/ICME2017
Introduction
如果直接将分类网络运用于Person Re-ID任务的话将会有几大缺点:
- 训练一个分类网络需要大量的数据,Re-ID任务目前没有特别大的数据集。
- 分类网络最后一层的神经元个数与训练集的分类个数有关,且参数量较大。
本文的贡献主要有两点:
- 将卷积网络的最后一层全连接层换成卷积层和global pooling层,适用于不同的Re-ID任务。(常用技俩)
- 采用coarse-to-fine的策略,缩小搜索空间,达到更好的判别性。
Approach
改造网络,将最后的全连接层替换为卷积层和global pooling层。比如AlexNet,将最后的fc7和fc8替换为卷积层和global pooling层。卷积层的通道数为训练集的分类个数,加上global pooling之后就相当于得到属于每类的描述符,然后用softmax分类。
在inference阶段,去掉替换的层,只用前面的卷积层的输出作为feature map,因此不依赖训练集的类别数,泛化能力更好。然后对这一层的feature做global pooling得到全局特征,即1024维特征,然后经过PCA降维得到128维的特征。
局部特征的提取和全局特征类似,只是将输入图像等分成4部分,由于提特征网络是个全卷积网络,因此输入图像的大小可以随意,因此将每部分分别输入网络都会得到1024维的特征(未用PCA降维)。
整个coarse-to-fine的过程是先线下提取gallery的全局特征和局部特征。coarse阶段先对query中的图像提取全局特征,从gallery中挑选排名前500的图像,fine阶段对query图像提取局部特征与挑选出的500张图像的局部特征进行对比。
Experiment
第一个实验是对比改造后的网络性能对比
- 改造过的网络性能要比原始网络要好不少。
- 输入图像变大,性能有提升。
第二个实验是加入fine-level的性能对比
点评:这种方法训练起来比较简单,但应该算不上真正意义上的coarse-to-fine,因为fine-level用的还是coarse网络,没有对各个部分分别进行训练。另外这种分成4部分的做法也显得很粗糙。