《SlowFast Networks for Video Recognition》阅读笔记

在这里插入图片描述
这是恺明大佬实验室的今年的新作。接下来我就大体按照原文对内容的安排来聊一聊这篇文章吧。

Abstract

他们的模型分为两个部分:
、低帧速率运行的Slow pathway,用来捕获空间的语义信息;
、高帧速率运行的Fast pathway,以良好的时间分辨率来捕获动作信息;关于Fast pathway,作者通过减少通道来使其变得特别轻巧(图像的细节特征不依赖这个提取),其主要学习时间维度上的动作信息来进行视频识别。

最后说了一下模型在Kinetics、Charades 、 AVA表现很SOTA,将会开源基于Pytorch的代码(截至2019.10.17还没有开源,不知道官方什么时候开源,不过目前github上有其他大佬的复现代码,有兴趣可以试试)

Introduction

这段的概括简述我大体是贴上知乎一篇文章内容( 下附链接),只是略微改动,我觉得对原文想表达的意思概括的很好,简洁又令人深思。

我们对于一张图片,我们可以简单的将其分为两个维度来看待,I(x,y) 。似乎很合理,xy方向的重要性似乎是相等的。然而对于一个视频,引入了时间维度tI(x,y,t) 。但这个tx,y可以同等看待吗,显然不是的啊,现实这个世界中,大多数的物体都是静止的。而我们传统的卷积如 3D卷积却是同等对待的,按照作者的理解,这是不合理的。既然不合理,就需要将时间t与空间(x,y)单独的处理。具体到现实生活中,人的语义信息总是缓慢的变化的,如“人”,不论他是在跑步还是在散步,始终是“人”,因此可以相对缓慢地刷新对类别语义(以及它们的颜色、纹理、照明等)的识别。相反,另一个方面的一些动作是很快的,瞬时的,如“跳”,因此这需要使用更快的帧率刷新来捕获这些信息。基于此,本文的核心网络就出来了。

有意思的是,作者还提到这个网络是受生物学的启发:灵长类动物视觉系统中视网膜神经节细胞的分布[24、34、6、11、48],这些研究发现,在这些细胞中,约80%是P细胞,约15-20%是M细胞。其中P细胞可以提供精细的空间细节和颜色等信息,对时间上的分辨率较低,对于外部刺激响应缓慢;而M细胞则对空间细节和颜色等信息不敏感,对时间变化更加敏感,能快速响应外部变化。这个网络的计算分布和这个也保持一致,效果SOTA,是不是很有意思?

关于核心网络SlowFast:

在这里插入图片描述
图一是该网络的一个示意图,C代表Channel,T代表采样的帧数,至于图像的高宽H,W示意图中忽略表示(从而把重点的C、T凸显出来)。

对于Slow分支,为了捕获更多的细粒度信息,其在Channel上的维度是充足的,而由于空间中的语义和其他细粒度特征变化缓慢,所以帧率不需要很高,所以T不会太高,对应图一的上方;
对于Fast分支,其Channel的维度就少很多(不需要捕获太细粒度的特征),其值为 β C \beta C βC。而帧数T就相对很大了,因为Fast分支需要捕获运动信息,其需要更密集的帧图像,其值为 α T \alpha T αT。对应图一下方。
实验中作者设置的 α = 8 , β = 1 8 \alpha=8, \quad \beta=\frac{1}{8} α=8,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值