【论文阅读笔记】Large-scale Video Classification with Convolutional Neural Networks

最新推荐文章于 2020-09-24 16:42:10 发布

原创

最新推荐文章于 2020-09-24 16:42:10 发布 · 2.9k 阅读

1 ·

CC 4.0 BY-SA版权

该论文介绍了将卷积神经网络（CNN）应用于视频分类的方法，通过低分辨率和高分辨率流处理减少训练时间。研究包括单帧模型、后期融合、早期融合和慢融合模型，探讨了不同时间信息融合策略对视频理解的影响。此外，提出Fovea和context streams技术以加速CNN处理，提高效率而不牺牲准确性。

论文贡献：

1.采用多种方法扩展CNN到视频识别，并用Sports-1M数据集进行验证和测试。

2.提出了将输入处理为低分辨率流和高分辨率流的方法，在不影响精确度的前提下显著减少了CNN的训练时间。

3.验证模型能够扩展到UCF101数据集上，且显著提升了精确率。

时间信息融合模型：

a）单帧模型（Single-frame）：用于得到静态图像对视频分类的贡献。CNN结构：C(96,11,3)-N-P-C(256,5,1)-N-P-C(384,3,1)-C(384,3,1)-C(256,3,1)-P-FC(4096)-FC(4096)。C（d,f,s）中d代表卷积核个数，f代表卷积核大小f X f，s代表步长。N代表normalization layers，P代表池化层，参数均为2 X 2。分类器为softmax。

b）后期融合模型（Late Fusion）：模型中包含两个单帧模型，参数共享。两个模型的输入使间隔为15的两帧，通过卷积层后对两个模型的输出使用两个全连接层进行融合。单帧模型无法检测到运动信息，但是通过第一个卷积层能够得到全局运动特征。

c）早期融合模型（Early Fusion）：通过整个时间窗即时得到像素级的组合信息。修改单帧模型的第一层卷积核为11X11X3XT，T表示时间范围参数，本文中使用T=10或者1/3秒左右。像素数据的早期连接融合使网络能够精确地检测到局部物体的运动方向和速度。

d）慢融合（Slow Fusion）：该模型是上述两个的模型的中和。模型高层能够逐步得到更多时间和空间信息。第一层卷积核的T=4，clip为10帧，步长为2。第二和第三卷积层T=2，步长为2。