【论文笔记】Revisting Temporal Modeling for Video-based Person ReID

Revisting Temporal Modeling for Video-based Person ReID

原文链接
代码链接

前言

这篇博客记录了对于视频行人重识别领域的初次尝试,在提取论文的观点后,还会针对代码部分进行分析。

摘要

首先介绍了一个具体的video-based 行人重识别系统应该包含的三个部分(后面也是根据这个完成的论文结构):

  • an image-level feature extractor (CNN) 图像特征提取
  • a temporal modeling method 时序建模方法去融合时序特征
  • loss function 损失函数

虽然已经提出了很多的时序建模方法,但是很难直接比较这些方法的好坏,因为特征的提取方式和损失函数都会对最终的效果产生挺大的影响。
这篇文章就是在保证其他条件相同时,测试了以下4种不同的temporal modeling methods:

  • temporal pooling
  • temporal attention
  • RNN
  • 3Dconvnets

还提出了一种新的attention generation network 用来适应时序卷积从不同帧中提取时序信息。

1.Introduction

2.Related Work

上面两部分就是总结了别人的工作,引了一些论文,就不介绍了,可以自行谷歌翻译看原文。

3.Method

这一部分介绍了整个系统结构以及三种temporal modeling methods的实现细节。
整个系统可以分为两个部分:

  • a video encoder which extract visual representations from video clips 能够从视频切片中提取有效信息的解码器
  • a loss function to optimize the video encoder and a method to match the query video with the gallery videos 一种能够匹配query video和gallery video的方法 ,以及损失函数

一段视频首先被切割成不重复的谦虚的切片 c k c_{k} ck,每个切片都包含T帧。

clip encoding 把clips作为输入,然后对每个clip输出一个D维的特征向量 f c f_{c} fc.

最后视频的特征就是所有clip特征的平均值。

3.1Video CIip Encoder

这里采用了两种类型的CNN网络来建立video clip encoder。

3D CNN直接将一个包含n帧的切片c作为输入,输出一个特征向量 f c f_{c} fc
2D CNN是先提取一个image-level features f c t {f^t_{c}} fct,t=[1,n],然后通过时序建模方法把 f c t {f^t_{c}} f

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值