SlowFast Networks for Video Recognition 用于视频识别的慢速网络(未完)

本文提出了一种名为SlowFast的新型视频识别网络,该网络采用双路径架构,包括低帧率的慢速路径和高帧率的快速路径。慢速路径捕获空间语义,快速路径则关注精细时间分辨率的运动。Fast路径通过减少通道容量而变得更轻量级,但仍能学习到有用的时间信息。在多个视频识别基准上,如Kinetics、Charades和AVA,SlowFast网络实现了最先进的准确性。该模型部分灵感来源于生物视觉系统中视网膜神经节细胞的差异,提供了灵活且高效的视频建模策略。

Abstract
我们提出了用于视频识别的 SlowFast 网络。我们的模型涉及 (i) 以低帧速率运行的慢速路径,以捕获空间语义,以及 (ii) 以高帧速率运行以捕获精细时间分辨率的运动的快速路径。 Fast 路径可以通过减少其通道容量而变得非常轻量级,但可以学习用于视频识别的有用时间信息。 - 概念。我们在主要视频识别基准、Kinetics、Charades 和 AVA 上报告了最先进的准确性。
1.Introduction
在识别图像I(x,y)的过程中,通常会对两个空间维度x和y进行对称性处理。这是由自然图像的统计学所证明的,自然图像首先是各向同性的,所有方向的可能性是相同的,并且是移位不变的[41,26]。但是视频信号I(x,y,t)呢?运动是方位的时空对应物[2],但所有的时空方位都是同等可能的。 慢速运动比快速运动更有可能(事实上,我们看到的大部分世界在某一时刻是静止的),这一点在人类如何感知运动刺激的贝叶斯描述中得到了利用[58]。例如,如果我们孤立地看到一条移动的边缘,我们会认为它是垂直于自身的运动,尽管原则上它也可能有一个与自身相切的任意运动成分(光流中的孔径问题)。如果先验倾向于慢速运动,这种感知是合理的,如果所有时空方向的可能性不同,那么我们就没有理由对称地处理空间和时间,这在基于时空卷积的视频识别方法中是隐含的 [49,5]。相反,我们可能会“考虑”架构以分别处理空间结构和时间事件。为了具体起见,让我们在识别的背景下研究这一点。视觉内容的分类空间语义通常发展缓慢。例如,挥舞的手在挥舞的过程中不会改变其作为 "手 "的身份,而一个人总是在 "人 "的类别中,即使他/她可以从走路变成跑步。因此,对猫的语义(以及它们的颜色、质地、灯光等)的识别可以相对缓慢地被刷新。另一方面,正在进行的运动可以比它们的主体身份发展得更快,如拍手、挥手、摇晃、行走或跳跃。我们希望使用快速刷新的帧(高时间分辨率)来有效地模拟潜在的快速变化的运动。基于这种直觉,我们提出了一个用于视频识别的双路径慢速法模型(图1)。 其中一条路径被设计用来捕捉可由图像或少数稀疏帧提供的语义信息,它以低帧率和低刷新速度运行。相比之下,另一条路径负责捕捉快速变化的运动,它以快速的刷新速度和高时间分辨率运行。这是因为这条通路被设计成具有较少的通道和较弱的处理空间信息的能力,而这些信息可以由第一条通路以不太多余的方式提供。我们称第一条通路为慢速通路,第二条通路为快速通路,这是由它们不同的时间速度驱动的。这两条途径通过侧向连接融合在一起。
在这里插入图片描述
我们的概念思想为视频模型带来了灵活有效的设计。由于其轻量级特性,Fast 路径不需要执行任何时间池化——它可以在所有中间层的高帧率下运行并保持时间保真度。同时,由于较低的时间速率,Slow 路径可以更专注于空间域和语义。通过以不同的时间速率处理原始视频,我们的方法允许两种途径在视频建模方面拥有自己的专业知识。
还有另一种众所周知的视频识别架构,它采用双流设计 [44],但提供了概念上不同的视角。双

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值