论文链接:https://arxiv.org/abs/1608.00859
代码链接:https://github.com/yjxiong/tsn-pytorch
论文笔记链接:https://blog.youkuaiyun.com/qq_39862223/article/details/108419664
论文实验过程:https://blog.youkuaiyun.com/qq_39862223/article/details/108461526
论文源码分析:https://blog.youkuaiyun.com/qq_39862223/article/details/108486039
1. TSN是什么?
TSN,全称为temporal-segment-networks,即时间段网络。该网络是一种新的基于视频的动作识别框架,旨在通过基于分段的采样和聚合模块对长距离的时间结构建模。通过简单的平均池化和多尺度时间窗口的集成,该模型可以很容易地应用于修剪和未修剪视频中的动作识别。
2. TSN面临的问题
根据之前学者的研究得知,视频的动作识别有两个重要方面:外观和时间动态。但是由于尺度变化、视点改变、相机移动等困难,使得关于视频的动作识别十分困难。因此,设计有效的特征表示对于学习分类信息很重要。
和图像分类不同,对于基于视频的动作识别来说,端到端深度卷积网络带来的改进仍然是有限的。论文作者认为有三个主要阻碍:
- 如何有效捕捉长距离时间结构的视频表示:尽管在传统方法中,长距离时间结构以及被证明对于理解动态信息非常重要,但在深度卷积网络架构方法中,仍然缺乏对于长距离时间结构的关注。现有的Convnet类方法通过关注外观和短期运动(最多16帧)。最近也出现一些解决这个问题的方法,采用的是预定义的采样间隔进行时间采样,这样计算成本高,且内存空间有限。
- 如何利用学到的ConvNet模型来更真实地处理未修剪的视频:现有动作识别方法多针对修剪过的视频。而实际上我们经常需要处理未修剪的视频如THUMOS, ActivityNet,其中每个动作可能仅占整个视频一小部分。主导背景部分可能干扰动作识别模型的预测。
- 如何在给定有限训练样本的情况下有效地学习ConvNe