Revisting Temporal Modeling for Video-based Person ReID
前言
这篇博客记录了对于视频行人重识别领域的初次尝试,在提取论文的观点后,还会针对代码部分进行分析。
摘要
首先介绍了一个具体的video-based 行人重识别系统应该包含的三个部分(后面也是根据这个完成的论文结构):
- an image-level feature extractor (CNN) 图像特征提取
- a temporal modeling method 时序建模方法去融合时序特征
- loss function 损失函数
虽然已经提出了很多的时序建模方法,但是很难直接比较这些方法的好坏,因为特征的提取方式和损失函数都会对最终的效果产生挺大的影响。
这篇文章就是在保证其他条件相同时,测试了以下4种不同的temporal modeling methods:
- temporal pooling
- temporal attention
- RNN
- 3Dconvnets
还提出了一种新的attention generation network 用来适应时序卷积从不同帧中提取时序信息。
1.Introduction
2.Related Work
上面两部分就是总结了别人的工作,引了一些论文,就不介绍了,可以自行谷歌翻译看原文。
3.Method
这一部分介绍了整个系统结构以及三种temporal modeling methods的实现细节。
整个系统可以分为两个部分:
- a video encoder which extract visual representations from video clips 能够从视频切片中提取有效信息的解码器
- a loss function to optimize the video encoder and a method to match the query video with the gallery videos 一种能够匹配query video和gallery video的方法 ,以及损失函数
一段视频首先被切割成不重复的谦虚的切片 c k c_{k} ck,每个切片都包含T帧。
clip encoding 把clips作为输入,然后对每个clip输出一个D维的特征向量 f c f_{c} fc.
最后视频的特征就是所有clip特征的平均值。
3.1Video CIip Encoder
这里采用了两种类型的CNN网络来建立video clip encoder。
3D CNN直接将一个包含n帧的切片c作为输入,输出一个特征向量 f c f_{c} fc。
2D CNN是先提取一个image-level features f c t {f^t_{c}} fct,t=[1,n],然后通过时序建模方法把 f c t {f^t_{c}} f