Temporal Segment Networks: Towards Good Practices for Deep Action Recognition
本文延续了双流网络,并考虑到计算花费改善了视频输入形式,提出了新的网络TSN,并且探索了一些实践方法(数据扩充,光流输入其他形式)。虽然文章比较老,但是实验过程以及对数据的处理值得参考。
论文主要贡献:提出了TSN(Temporal Segment Networks),基于长范围时间结构(long-range temporal structure)建模,结合了稀疏时间采样策略(sparse temporal sampling strategy)和视频级监督(video-level supervision)来保证使用整段视频时学习得有效和高效。在TSN的帮助下,研究了一系列关于视频数据学习卷积网络的良好实践数据集表现:HMDB51(69.4%)、UCF101(94.2%)
3 Action Recognition with Temporal Segment Networks
对于以下内容将“片段”代表文章中“snippet”,“段”代表文章中“segment”
3.1 Temporal Segment Networks
之前方法都是对单帧图像处理,忽略了动作上下文信息;而采用多帧光流处理的方法,计算力消耗很大。针对以上问题,文章提出TSN(Temporal Segment Networks)如图1所示对整个视频处理。

本文介绍了Temporal Segment Networks(TSN),一种用于深度动作识别的网络结构,旨在利用长范围时间结构并减少计算成本。TSN通过稀疏时间采样和视频级监督学习,提高了在HMDB51和UCF101数据集上的性能。论文还探讨了网络架构、输入形式、训练策略和测试方法,包括Inception with Batch Normalization、RGB差异、扭曲光流场、部分BN和dropout等技术,以增强模型的区分能力和防止过拟合。
最低0.47元/天 解锁文章
1619

被折叠的 条评论
为什么被折叠?



