【论文阅读笔记】Beyond Short Snippets: Deep Networks for Video Classification

该博客探讨了视频分类任务,通过使用预训练的CNN(AlexNet和GoogleLeNet)提取帧级特征,结合光流特征,利用池化和LSTM进行视频级描述。研究发现,增加帧数、使用LSTM处理光流特征能显著提高性能。实验在Sports-1M和UCF-101数据集上进行,表明了所提出方法的有效性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  • 主要目的:

视频分类

  • 测试数据集:

Sports-1M、UCF-101

  • 方法概况:

使用在imageNet上预训练过的CNN(AlexNet或者GoogleLeNet)提取帧级特征,再将帧级特征和提取到的光流特征输入到池化框架或者LSTM进行训练,得到分类结果。

  • 主要贡献:

1.提出采用CNN来得到视频级的全局描述,并且证明增大帧数能够显著提高分类性能。

2.通过在时序上共享参数,参数的数量在特征聚合和LSTM架构中都作为视频长度的函数保持不变。

3.证明了光流图像能够提升分类性能并用实验结果说明即使在光流图像本身存在大量噪声的情况下(如在Sports-1M数据集中),与LSTM结合后仍然对分类有很大帮助。

  • 模型各部件详细介绍:

  • 1.特征提取CNN

使用两个CNN的原因:对比哪个框架提取的特征效果好

1)AlexNet

参考文献:A. Krizhevsky, I. Sutskever, and G. E. Hinton. ImageNet classification with deep convolutional neural networks

输入:220X220

卷积层:每个卷积层由size为11X9X5的卷积核组成,每个卷积层后进行最大池化(max-pooling)和归一化(local contrast normalization),最后通过两个size为4096的全连接层(采用ReLu为激活函数),每个全连接层的dropout比率都为0.6

输出:4096X1

2)GoogleLeNet

参考文献:C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich. Going deeper with convolutions

输入:220X220

框架:多个Inception modules,多种卷积核大小,最大池化和平均池化均采用

输出:1000X1

  • 2.聚合帧级特征以得到视频级描述(与视频帧时序无关)

采用两种方式,最后将下面两种方式和上述两种CNN分别组合进行效果对比。

优化方式:随机梯度下降(SGD)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值