2016 ECCV-Gated Siamese Convolutional Neural Network Architecture for Human Re-ID

最新推荐文章于 2024-01-28 18:18:37 发布

_Xiaobo

最新推荐文章于 2024-01-28 18:18:37 发布

阅读量2.1k

点赞数

分类专栏：论文笔记行人重识别文章标签： re-ID CV

本文链接：https://blog.youkuaiyun.com/weixin_41427758/article/details/80076305

版权

行人重识别同时被 2 个专栏收录

20 篇文章

订阅专栏

论文笔记

18 篇文章

订阅专栏

论文地址
第一篇论文笔记，希望大家能多提些意见来帮助我提高论文笔记模型的性能。相关方向的童鞋可以加qq:396543018一起交流~

Motivation

现在的Siamese CNN对每个照片仅在final level提取固定的表示进行比较，而不管与其配对的其他图像情况。
缺点：难以提取对于区分hard negative pairs与positive pairs局部的细致模式
对于以上的问题，本文提出了一个a gating function通过比较图像对中间层的特征来选择性的突出公共的细致局部模式

个人理解：

本文是从一种去尝试从增强局部细节特征来提高re-ID模型的判别能力，根据CNN分层的特点在中间层插入Matching Gate增强局部细节来提升模型的性能，这也是目前Re-ID的一个趋势，全局特征判别力不强，通过attention、对齐、姿势等等来提高判别能力

Contribution

提出了一个baseline siamese convolutional neural network architecture性能能够超过大多数深度学习方法
为了将运行时选择与增强特征融入S-CNN结构，提出了a novel matching gate来提升不同视角的局部特征
- 促使网络中的卷积核学习细致的模式来区分hard-negatives
- 提出的matching gate是可微的，能够端到端学习
在CUHK03、Market1501、VIPeR数据集上进行了实验，证明了本文方法的有效性

1 Introduction

siamese fashion将特征提取与度量学习融入一个框架
S-CNN的缺点:同motivation中，没有很好的捕捉局部信息，如下图中人很容易通过细节特征来区分的pairs，S-CNN并不能很好区分

使用gating function的原因:

因为在CNN的中间层的特征具有更多的细节模式相比后面层高级特征更容易增加positive pairs的相似性，本文从mid-level开始使用gating function来对图像对提取局部模式并促进向高层传播与局部相似性有关的特征
在反向传播的过程中，gate function也能促进放大局部相似性的梯度的传播，这样可以使lower与middle layers的卷积核提取更多的局部相似模式来区分正例对与负例对
挑战：不同的camera视角具有不同的姿势变化，如何来有效地比较局部特征以及选择共同的模式？本文采取的是horizontal row-wise，通过each horizontal stripe来比较，（这样直接对齐是否真的合理呢？）
- 将图像对同一水平条的特征加和并通过欧式距离比较
- 得到每一个维度的距离后利用Gausssian activation function来输出0-1的相似度得分，这个得分用来控制每个水平条特征的传递
- 将gated feature与input feature相加来突出局部的相似性

2.1 Human Re—Indentification

Person re-ID的两个研究重点:

找到新的特征表示：应对各种factor of variations
学习距离度量：来更好的描述图片之间的相似性

Deep Learning for Human Re-Identification:

2014年第一个Siamese CNN
Deep Filter Pairing Neural Network (FPNN)
等等
本文与上述工作的不同：提出的matching gate目标是比较不同层次的特征来提升局部相似性并增强传播局部特征的判别能力

2.2 Gating Functions

之前使用门函数的工作：LSTM、Highway、‘Trust Gates’
本文的门函数用在了不同于上述工作的结构中，以及有着不同的目的，作用：见Introduction

3 Proposed Model

3.1 Model Architecture

Baseline Siamese CNN architecture:
- 见下图

details:
- 输入图片大小为128 * 64并减去在训练集上计算得到的均值
- 只使用了三个池化层，防止过多的信息损失
- 在4-6层使用了非对称卷积核，保持第三层输出的行数，且使列数逐步变成1（受一篇论文的启发），同时相比对称卷积核减少了参数
- Vgg-like卷积核、BN、PRelu

Matching Gate:
- 结构如下图：

1.Feature summarization

feature summartization unit:用来汇总图片中水平条的局部特征
- 原因在于不同视角下的图片，姿势会发生变化，不一定在两个图片的同一个位置，本文假设在同一个水平区域
- 本文通过卷积完成汇总
- 公式:
  $y r 1 = f (w * x r 1); y r 2 = f (w * x r 2)$ $y_{r1} = f(w * x_{r1}); \qquad y_{r2} = f(w * x_{r2})$

2.Feature Similarity computation

对1的输出的每一个维度计算每欧式距离，并通过Gaussian activation functiond得到gate values
公式：
$g i r = e x p (- ( y i r 1 - y i r 2 ) 2 p 2 i)$ $g^i_r = exp(\frac{-(y_{r1}^i-y_{r2}^i)^2}{p_i^2})$
$p_i$ 代表高斯函数的方差，最优的值通过训练得到，值得注意的是 $p_i$ 的初始值要较大来确保在前向与反向传播过程中激活值与梯度的平滑流动

3.Filtering and Boosting the features:

利用gate后特征与gate前得特征加和得到的boosted output,即comman pattern，之后再对得到的输出进行L2 normalization
公式：

a i r 1 = x i r 1 + x i r 1 ⊙ G i r

$a_{r1}^i = x_{r1}^i + x_{r1}^i \odot G_{r}^i$

a i r 2 = x i r 2 + x i r 2 ⊙ G i r

$a_{r2}^i = x_{r2}^i + x_{r2}^i \odot G_{r}^i$

G i r = [g i r, g i r, . . . ., g i r] r e p e a t e d c t i m e s

$G_r^i = [g_r^i, g_r^i,....,g_r^i]_{repeated\ c\ times}$

对MG公式的解释：
- 当P值较大时候，得到的g接近1，那么可以允许最大的信息流过
- 当p值较小时，只有两个局部特征较为接近时候，g才接近1，即仅仅允许非常相似的区域通过。

3.2 Traning and Optimization

Input preparation:

用0、1分别表示负样本与正样本对
因为数据集中负样本对远远大于正样本对：
- 数据增强
- sample 5 times the number of positive image pairs

Training:

he normal
contrastive loss, margin:1
RMSProp
early stopping
initial learning rate 0.002,每个epoch乘以0.9
p:初始为4

Testing:

得到query与gallery图片特征，计算欧式距离
对结果进行升序排列来得到top matches

4 Experiments

分别在Market-1501、CUHK03、VIPeR上做了实验，对于Market-1501及CUHK03两个较大的数据集上都取得了较好的性能，对于较小的VIPrR，相比其他DL方法也取得了不错的效果，但是由于数据太少，效果不如一些传统方法，结果如图：
Market-1501：
CUHK03：
VIPeR