TSN论文阅读笔记(一)

TSN是一种用于视频动作识别的通用框架,通过稀疏分段采样和多种聚合函数,有效处理长距离时间结构。在UCF101、THUMOS14等多个数据集上表现出色。TSN解决了修剪和未修剪视频的动作识别挑战,采用跨模态初始化、部分BN等策略应对有限训练样本问题。

 Temporal Segment Networks for Action Recognition in Videos

最近读了这篇文章,这是一些笔记。

1 摘要

  • 本文提出了一个通用且灵活的视频级框架,用于学习视频中的动作模型——TSN,该模型旨在通过新的基于分段的采样和聚合模块来对长距离的时间结构建模。通过简单的平均池化和多尺度时间窗口的集成,该模型可以很容易地应用于修剪和未修剪视频中的动作识别。
  • 在五个数据上效果都不错。HMDB51 (71.0%), UCF101 (94.9%), THUMOS14 (80.1%), ActivityNet v1.2 (89.6%), and Kinetics400 (75.7%).
  • 将本文提出的RGB差用于运动模型,也仍可以在UCF101上取得91%的准确率,速度为340FPS。

2 介绍

  • 基于视频的动作识别的两个要素:外观和时间动态。面临的困难:尺度变化、视点改变、相机移动。因此,设计有效的特征表示对于学习分类信息很重要。
  • 与图像分类不同,对于基于视频的动作识别来说,相比于手工特征,端到端深度卷积网络带来的改进仍然是有限的。so作者认为有三个主要阻碍:
    1. 深度ConvNet架构方法中,缺乏对于长距离时间结构的重点关注。(尽管在传统方法中,长距离时间结构已经被证明对于理解动态信息非常重要)现有的Convnet类方法通常关注外观和短期运动(即最多16帧)。而最近一些尝试解决这个问题的方法,采用的是预定义的采样间隔进行时间采样,这样计算成本高,且内存空间有限,视
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值