行人再识别问题
行人再识别是一项很具有挑战性的任务,主要因素包括环境因素和行人本身的因素:
(1)环境因素:复杂的背景、光照、获取的图像分辨率等;
(2)行人因素:衣着、姿势、步态等。
之前很难提取到robust的特征,深度学习的发展使特征提取成为可能。
论文方法
[主要思想]
使用多个尺度,将提取到的特征图进行水平划分成bins;将每个bin分别进行平均池化和最大池化,并将两个池化结果整合起来:每个尺度的不同bin池化结果可以连在一起,用作分类。参考下图:
[模型框架]
(1)backbone: 使用resnet50从输入图像提取特征图;使用ImageNet的预训练权重;与resnet50不同在于:conv4_1的步长由2改成1,并且去掉平均池化层和全连接层。
(2)horizontal pyramid pooling: 首先根据scale水平划分特征图:分别进行最大池化和平均池化,两者结果对应相加;通过1*1的卷积核进行降维。
(3)fc + softmax: 使用全连接层和softmax进行分类。
详情见下图: