paper下载地址:http://www.eecs.qmul.ac.uk/~sgg/papers/ChenEtAl_ICCV2017WK_CHI.pdf
Introduction
本文主要的考虑是:目前所有re-id的方法,不管是不是基于CNN的,第一步都是将图像resize到统一大小然后再来提取特征。这种做法会模糊掉图像在不同尺度上的显著性特征,因此作者认为这样的方法不是最优的,本文提出了一种在多尺度上提取特征并且共同学习的方法,称之为DPFL(Deep Pyramidal Feature Learning)。
Approach
网络机构如下图所示:
- Single Scale Feature Learning
作者使用的主网络是42层的Inception-V3,每个scale上都是用同样的网络结构进行softmax分类,得到每个scale上输入图像的分类概率 P˜=[p1˜,...,pi˜,...,pnid˜] 。
- Multi-Scale Consensus Learning
提取主网络最后一层卷积层的特征 c∗c∗2048 维,然后加上averaging-pooling→vector concatenation→dropout得到2048*m维的向量,m为scale的个数。然后进行softmax分类,得到各个scale特征融合之后的分类概率 P=[p1,...,pi,...,pnid] 。
- Feature Regularisation by Consensus Propagation
用融合之后的分类概率给每个scale的loss加上一个正则项
其中
Discussion
DPFL与Knowledge Distillation (KD)的不同的点在于:
目标性:KD的目标是模型压缩,通过将一个学习得很好的很大的teacher模型转化为一个小的student模型。DPFL的共同学习是为了获得不同scale上图像的判别性描述。
动态性:KD需要一个预先训练好的teacher模型。DPFL则是用所有scale的输出生成teacher,然后用这个teacher约束每个scale的学习,是一个动态的过程。
Model Optimisation
从上面的学习过程可以看出这个网络的学习过程是有一定顺序的,作者给出的算法如下图所示:
总的来说就是 前向时先每个分支学习,然后每个分支上加上正则项;反向时先每个分支更新梯度,然后融合的分支更新梯度。
Experiment
- Evaluation on Market-1501
- Generalisation to Different CNN Models
点评:本文的做法很新颖,虽然主要考虑的是scale因素,但是如果用在parts上的话感觉会更合适,下去尝试下。