【论文笔记】Revisting Temporal Modeling for Video-based Person ReID

魏大明白

于 2021-03-11 14:40:15 发布

阅读量617

点赞数

分类专栏：论文笔记文章标签：深度学习计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_37747189/article/details/114589601

版权

Revisting Temporal Modeling for Video-based Person ReID

原文链接
 代码链接

前言

这篇博客记录了对于视频行人重识别领域的初次尝试，在提取论文的观点后，还会针对代码部分进行分析。

摘要

首先介绍了一个具体的video-based 行人重识别系统应该包含的三个部分（后面也是根据这个完成的论文结构）：

an image-level feature extractor (CNN) 图像特征提取
a temporal modeling method 时序建模方法去融合时序特征
loss function 损失函数

虽然已经提出了很多的时序建模方法，但是很难直接比较这些方法的好坏，因为特征的提取方式和损失函数都会对最终的效果产生挺大的影响。
这篇文章就是在保证其他条件相同时，测试了以下4种不同的temporal modeling methods:

temporal pooling
temporal attention
RNN
3Dconvnets

还提出了一种新的attention generation network 用来适应时序卷积从不同帧中提取时序信息。

1.Introduction

2.Related Work

上面两部分就是总结了别人的工作，引了一些论文，就不介绍了，可以自行谷歌翻译看原文。

3.Method

这一部分介绍了整个系统结构以及三种temporal modeling methods的实现细节。
整个系统可以分为两个部分：

a video encoder which extract visual representations from video clips 能够从视频切片中提取有效信息的解码器
a loss function to optimize the video encoder and a method to match the query video with the gallery videos 一种能够匹配query video和gallery video的方法，以及损失函数

一段视频首先被切割成不重复的谦虚的切片 $c_{k}$ ,每个切片都包含T帧。

clip encoding 把clips作为输入，然后对每个clip输出一个D维的特征向量 $f_{c}$ .

最后视频的特征就是所有clip特征的平均值。

3.1Video CIip Encoder

这里采用了两种类型的CNN网络来建立video clip encoder。

3D CNN直接将一个包含n帧的切片c作为输入，输出一个特征向量 $f_{c}$ 。
2D CNN是先提取一个image-level features ${f^t_{c}}$ ,t=[1,n],然后通过时序建模方法把 ${f^t_{c}}$

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。