I3D模型_2017_CVPR

最新推荐文章于 2025-08-14 14:29:17 发布

原创最新推荐文章于 2025-08-14 14:29:17 发布 · 7.5k 阅读

25 ·

CC 4.0 BY-SA版权

文章标签：

#视频处理 #I3D

论文总结专栏收录该内容

7 篇文章

订阅专栏

本文探讨了I3D模型在视频动作识别领域的显著效果，特别是在Kinetics数据集上的预训练如何提升了模型在其他数据集（如HMDB-51, UCF-101）的表现。I3D模型基于2D卷积网络，通过增加时间维度来捕捉视频中的时序信息，展现出优于传统方法的性能。

作者的观点：

若在足够大的视频动作识别数据集上训练（Kinetics），是否能提升模型在其他数据集（HMDB-51,UCF-101）上的表现呢？

论文核心内容：

对于不同模型，这种方法（见观点）提升性能程度相差很大，于是提出 Two-Stream Inflated 3D ConvNet ( I3D ) 模型
实验分析，现有最好的动作识别方法在数据集Kinetics上的表现，其次是在对Kinetics进行预训练之后，对较小的基准数据集的性能有多大提高。
I3D模型之所以会有如此好的表现，是因为该模型具有很高的时间分辨率。即输入的训练帧数多。（它们以每秒25帧的速度训练64帧视频片段，并在测试时处理所有视频帧，这使得它们可以捕获细粒度的时间动作结构。）

论文主要贡献：

提出一种新模型I3D，基于2D卷积网络的增强版。
在视频动作识别数据集上训练（Kinetics），获得的网络可以提升模型在其他数据集（HMDB-51,UCF-101）上的表现。

展望/待解决问题：

对于其他视频任务（例如语义视频分割，视频对象检测或光流计算）使用Kinetics预训练是否有益仍有待观察。【研究点！！！】
作为未来的工作，我们计划使用Kinetics而不是miniKinetics重复所有实验，使用和不使用ImageNet预训练，并探索inflat其他的2D ConvNets

1.Introduction

I3D：以最新的图片分类模型为基础结构，将kernels膨胀(inflate)结合到3D Conv。基于2D卷积网络的增强版。将非常深图片的卷积分类的卷积核与池化核扩展为3D，使得可以从视频中学习无缝的时空特征提取器，同时利用成功的ImageNet架构设计甚至其参数。

2 Action Classification Architectures

2.2 The Old II: 3D ConvNets

在这篇文章中，作者提出一种C3D的变体，它包括8个卷积层，5个池化层和两个全连接层。输入是从视频中截取的大小为112*112共16帧的片段。使用批正则化(batch normalization)的方法。不同于C3D，该方法在第一个池化层使用的temporal strde为2而不是1，这种改进减少内存占用并允许更大批量。

2.3. The Old III: Two-Stream Networks

I3D模型也参考了Two-Stream，还结合了 Inception-V1，网络的输入为相隔10帧的5个连续RGB帧，以及相应的光流片段。在Inception-V1的最后一个平均合并层（5×7×7特征网格，对应于时间，x和y维度）之前的空间和运动特征通过具有512个输出通道的3×3×3 3D卷积层，然后是3×3×3 3D最大池层并通过最终的完全连接层。