一.论文介绍
本文是CVPR2019报告的文章,主要是将对reid有效的方法和技巧进行收集和评价。该模型仅使用了全局特征(global feature)。
二.论文的目的与贡献
(一)目的
本文目的为reid提供baseline,使其他研究人员了解reid,例如:如何评判,有什么技巧等。为reid提供了一个标准,使得后续的发展更加规范。
(二)贡献
1) 我们为ReID收集了一些有效的训练技巧。其中,我们设计了一种新的neck结构,称为BNNeck。此外,我们还对两个广泛使用的数据集评估了每个技巧的改进。
2) 我们提供了一个强大的ReID baseline,在Market1501上实现了94.5%和85.9%的mAP。值得注意的是,这些结果是用ResNet50 backbone提供的全局特性得到的。据我们所知,这是全局特征亲自获得的最佳性能。
3)作为补充,我们评估了图像size和batch size(批量)数量对ReID模型性能的影响。
三.标准baseline
我们遵循广泛使用的开放源码作为我们的标准baseline。标准baseline的backbone(基础网络)为ResNet50[5]。在训练阶段,pipeline(步骤集合)包括以下步骤:
1,我们在ImageNet上初始化带有预训练参数的ResNet50,并将全连接层的维度更改为N, N表示训练数据集中的行人身份数。
2,我们随机抽取每个人的P个身份和K个图像作为训练样本。最后batch-size B = P*K。本文设P = 16, K = 4。注:P个ID,每个ID四张图片
3,我们将每个图像的大小调整为256 *128像素,并将调整后的图像填充10个像素,填充值为0。然后随机裁剪成256 *128的矩形图像。
4,每幅图像水平翻转的概率为0.5。
5,每个图像被解码成32位浮点原始像素值在[0,1]。然后分别减去0.485、0.456、0.406,再除以0.229、0.224、0.225,对RGB通道进行归一化。注:这里的解码成32位浮点在[0,1]的意思是除以255,进行一个压缩而不是概率论中的标准化。而后面的RGB通道进行归一化才是进行理解中的正态分布标准化。
6,该模型输出ReID特征为 f 和 ID 预测 logits p。
注:这句话的意思是,模型的输出包含两部分:ReID特征(记作f)和ID预测的logits(记作p)。
ReID特征(Re-Identification features)是模型从输入图像中提取的特征,这些特征被用来区分不同的个体。在人脸识别或者行人重识别等任务中,ReID特征通常会被用来计算两个图像之间的相似度,以判断它们是否属于同一个个体。
ID预测的logits是模型对每个可能的身份的预测得分。在分类任务中,这些得分通常会被送入一个softmax函数,得到每个身份的预测概率。在训练阶段,这些预测概率会被用来计算损失函数,以指导模型的优化。
所以,这句话的意思是,模型的输出既包含了用于区分个体的ReID特征,也包含了用于预测身份的logits。
举个例子:
假设我们的数据集中有1000个不同的人,那么ID预测的logits就会是一个长度为1000的向量。每个元素代表模型预测图像属于对应身份的得分。例如,如果logits是[0.1, -0.2, 0.3, ..., 0.2],那么模型预测图像属于第一个身份的得分是0.1,属于第二个身份的得分是-0.2,以此类推。
ReID特征则是一个更高维度的向量,它包含了模型从图像中提取出的特征。这些特征被用来区分不同的个体。例如,ReID特征可能包含了人脸的形状、眼睛的颜色等信息。具体的维度和内容取决于模型的设计