SlowFast论文翻译+解读

本文提出了SlowFast网络,一种用于视频识别的新型架构,它结合了低帧率、低时间分辨率的慢速路径和高帧率、高时间分辨率的快速路径。慢速路径关注空间语义,而快速路径则捕捉快速变化的运动。快速路径设计得非常轻量级,以较低的计算成本提供高时间分辨率。通过在不同的时间速度下处理视频,该模型在动作分类和检测任务上表现出优秀的性能,尤其是在Kinetics和AVA数据集上。

SlowFast Networks for Video Recognition

参考文章

用于视频的慢速网络

Abstract(摘要)

我们提出用于视频识别的SlowFast网络。

我们的模型涉及

  1. 以低帧速率操作的慢速路径,捕获空间语义

  2. 以高帧速率操作的快速路径,以精细时间分辨率捕获运动。

通过降低其信道容量,可以使快速路径非常轻量级,并且可以学习用于视频识别的有用时间信息。模型在视频中的动作分类和检测方面都获得了强大的性能,而且我们的SlowFast概念也大量的改进。我们在没有使用任何预训练的情况下报告Kinetics数据集的准确率为79.0%,大大超过此前的最佳结果。在AVA动作检测中,我们实现了28.3 mAP的新技术。代码将公开发布。

Kinetics-400:

(它是2017年发布的初始动力学数据集的近似超集,现在称为Kinetics-400。 该数据集由大约500,000个视频剪辑组成,涵盖600个人类动作类,每个动作类至少有600个视频剪辑。)

1 Introduction(介绍)

习惯于识别图像I(x; y)以对称地处理两个空间维度x和y。这通过自然图像的统计来证明是合理的,其是第一近似的各向同性 - 所有方向都是同样可能的 - 并且是移位不变的。

但视频信号I(x; y; t)怎么样?运动是方向的时空对应物,但所有时空方向都不是同等可能的。慢速运动比快速运动更可能(事实上我们看到的世界大部分时间都在某个特定时刻处于静止)并且这已经在贝叶斯关于人类如何感知运动刺激的过程中被利用。例如,如果我们看到一个孤立的移动边缘,我们将其视为垂直于自身移动,即使原则上它也可以具有与其自身相切的任意运动分量(光流中的孔径问题)。如果先前有利于减慢运动,则该感知是合理的。

如果所有时空方向的可能性都不相等,那么我们就没有理由对称地对待空间和时间,正如基于时空卷积的视频识别方法所暗示的那样。我们可能会“考虑”架构以分别处理空间结构和时间事件。为了具体,让我们在承认的背景下研究这一点。视觉内容的分类空间语义通常发展缓慢。例如,挥手不会在挥动动作的跨度上改变他们作为“手”的身份,并且即使他/她可以从步行转为跑步,人也总是处于“人”类别。因此,分类语义的识别(以及它们的颜色、纹理、光照等)可以相对缓慢地刷新。

另一方面,正在执行的动作可以比其主体身份更快地发展,例如拍手,挥手,摇晃,行走或跳跃。可以期望使用快速刷新帧(高时间分辨率)来有效地建模可能快速变化的运动。基于这种直觉,我们提出了一种用于视频识别的双通道SlowFast模型(图1)。

图1:SlowFast 网络包括低帧率、低时间分辨率的 Slow 路径和高帧率、高时间分辨率(是Slow 路径时间分辨率的 α 倍)的 Fast 路径。Fast 路径使用通道数的一部分(β,如 β = 1/8)来轻量化。Slow 路径和 Fast 路径通过横向连接融合。此样本来自AVA数据集(注释:手势)。

AVA数据集:

AVA数据集 是google发布的一个视频行为检测与定位的视频数据集,包含在430个15分钟的视频片段中标注了的80种原始动作,这些动作由时间和空间定位,产生了1.58M个动作标签。

其中一种路径旨在捕捉图像或稀疏帧所能提供的语义信息,其运行速度较低,刷新速度较慢。相比之下,另一种路径负责捕捉快速变化的运动,刷新速度快,时间分辨率高。尽管它的时间速率很高,但该路径非常轻量级,例如,占总计算量的20%左右。这是因为该路径的通道较少,对空间信息的处理能力较弱,而第一个路径可以以较少冗余的方式提供这些信息。我们称前者为慢路径,后者为快路径,由它们不同的时间速度驱动。这两条通路通过横向连接连接在一起。

我们的概念构思可为视频模型提供灵活有效的设计。快速路径由于其轻量级特性,不需要执行任何时间池 - 它可以在所有中间层的高帧速率下操作并保持时间保真度。同时,由于较低的时间速率,慢速路径可以更专注于空间域和语义。通过以不同的时间速率处理原始视频,我们的方法允许这两种途径在视频建模方面拥有自己的专业知识。

还有一种著名的视频识别体系结构[44],它采用两流设计,但提供了概念上的不同视角。双流方法[44]没有探索不同时间速度的潜力,这是我们方法中的一个关键概念。双流方法对两种流采用相同的骨干结构,而我们的Fast路径更轻量级。我们的方法不计算光流,因此,我们的模型是从原始数据端到端学习的。在我们的实验中,我们观察到SlowFast网络在经验上更有效。

我们在Kinetics 和AVA 数据集上全面评估了我们的方法。在Kinetics分类中,我们的方法在没有任何预训练(例如ImageNet)的情况下达到79.0%的准确度,在很大程度上超过了这种文献中的最佳数量5.1%。消融实验令人信服地证明了SlowFast概念所带来的改进。在AVA动作检测方面,我们的模型实现了28.3%mAP的最新技术水平。

我们的方法部分受到了灵长类视觉系统中视网膜神经节细胞的生物学研究的启发,尽管不可否认的是,这种类比是粗糙和不成熟的。这些研究结果表明,在这些细胞中,约有80%是微小细胞(p细胞),约有15-20%是巨细胞(m细胞)。m细胞的工作频率很高,对快速的时间变化有反应,但对空间细节或颜色不敏感。p细胞提供良好的空间细节和颜色,但较低的时间分辨率,对刺激反应缓慢。

我们的框架类似于: 1、我们的模型有两条分别在低时间和高时间分辨率下工作的路径; 2、我们的快速通道旨在捕捉快速变化的运动,但更少的空间细节,类似于Mcells; 3、我们的Fast途径轻巧,类似于M细胞的小比例。 我们希望这些关系将激发更多用于视频识别的计算机视觉模型。

2 Related Work(相关工作)

  • 时空过滤

动作可以表示为时空对象,并通过时空中的定向滤波捕获,如HOG3D和长方体所做的。3D ConvNets 将2D图像模型扩展到时空域,同样处理空间和时间维度。也有相关的方法专注于长期滤波和利用时间跨距的池化,以及将卷积分解为单独的二维空间和一维时间滤波器。除了时空过滤或其可分离版本,我们的工作追求通过使用两种不同的时间速度来更彻底地分离建模专家。

  • 用于视频识别的光流

基于光流的手工时空特征是一个经典的研究分支。这些方法,包括流直方图、运动边界直方图和轨迹,在深度学习普及之前,已经在动作识别方面表现出了竞争性能。在深度神经网络的背景下,双流方法利用光流作为另一种输入模态。该方法是文献中许多竞争结果的基础。然而,考虑到光流是一种手工设计的表示,它在方法上是不令人满意的,而且两流方法往往不是端到端与流一起学习的。

3 SlowFast Networks(慢速网络)

慢速网络可以被描述为以两种不同的帧率运行的单一流结构,但我们使用路径的概念来反映与生物中的Parvo-和Magnocellular对应物的类比。我们的通用架构有一个慢路径(3.1节)和一个快路径(3.2节),它们通过横向连接融合到一个SlowFast网络(3.3节)。图1说明了我们的概念。

3.1 慢路径

慢路径可以是任何卷积模型,可

评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值