【论文笔记】TSN（Temporal Segment Networks: Towards Good Practices for Deep Action Recognition）

最新推荐文章于 2022-04-11 01:14:15 发布

原创

最新推荐文章于 2022-04-11 01:14:15 发布 · 1.0k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#计算机视觉

TSN（Temporal Segment Networks）旨在解决现有动作识别模型对长期时间信息分析不足的问题，通过稀疏采样策略和双流网络结构，结合光流与RGB信息。在有限数据下，通过预训练、正则化和增强数据增强等手段提高模型性能。文章探讨了端到端网络的概念，指出TSN并非端到端模型，并分享了论文中的关键发现和实验结果。

【注】这是我在动作识别领域，认真研读的第一篇文章，对很多概念还理解得不透彻，名词翻译不准确，请大家谅解并在评论区指正。最近正在看TSN的实现代码，后期还会出一篇代码研读的博客。

解决问题（motivation）：

现有模型缺乏对long-range时间动作信息的分析
目前主流的动作识别模型，往往专注于提取空间信息（appearance）和short-term的时间动作信息，缺乏对long-range的时间动作信息的分析应用。而不去提取long-range的时序信息的原因，在于现有解决方案使用的是稠密时序采样（dense temporal sampling with a predefined sampling interval），这会导致极大的计算量，导致特征提取的视频长度有限。
训练数据有限
由于视频数据的采集和标注十分困难，现有的训练数据十分有限。例如现有的两个主流数据集：UCF101,HMDB51，在大小以及动作类别上都十分有限。如何在有限的数据下训练得到效果较好的模型也是一个问题。

解决方案（方案关键点）：

1.提出基于双流网络结构的TSN网络 ,并使用稀疏采样的策略，获得视频长度上的时间动作信息。

2.在模型训练中使用一系列改进方法及技巧，使得在有限的数据下模型也能较好的训练。
①cross-modality pre-training; ②regularization; ③enhanced data augmentation；④study four types of input modalities to two-stream ConvNets.
原文Fig.1

一些疑问：

解决方案2中的多模态融合的实现细节？

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。