-
主要目的:
视频分类
-
测试数据集:
Sports-1M、UCF-101
-
方法概况:
使用在imageNet上预训练过的CNN(AlexNet或者GoogleLeNet)提取帧级特征,再将帧级特征和提取到的光流特征输入到池化框架或者LSTM进行训练,得到分类结果。
-
主要贡献:
1.提出采用CNN来得到视频级的全局描述,并且证明增大帧数能够显著提高分类性能。
2.通过在时序上共享参数,参数的数量在特征聚合和LSTM架构中都作为视频长度的函数保持不变。
3.证明了光流图像能够提升分类性能并用实验结果说明即使在光流图像本身存在大量噪声的情况下(如在Sports-1M数据集中),与LSTM结合后仍然对分类有很大帮助。
-
模型各部件详细介绍:
-
1.特征提取CNN
使用两个CNN的原因:对比哪个框架提取的特征效果好
1)AlexNet
参考文献:A. Krizhevsky, I. Sutskever, and G. E. Hinton. ImageNet classification with deep convolutional neural networks
输入:220X220
卷积层:每个卷积层由size为11X9X5的卷积核组成,每个卷积层后进行最大池化(max-pooling)和归一化(local contrast normalization),最后通过两个size为4096的全连接层(采用ReLu为激活函数),每个全连接层的dropout比率都为0.6
输出:4096X1
2)GoogleLeNet
参考文献:C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich. Going deeper with convolutions
输入:220X220
框架:多个Inception modules,多种卷积核大小,最大池化和平均池化均采用
输出:1000X1
- 2.聚合帧级特征以得到视频级描述(与视频帧时序无关)
采用两种方式,最后将下面两种方式和上述两种CNN分别组合进行效果对比。
优化方式:随机梯度下降(SGD)