【论文阅读笔记】Beyond Short Snippets: Deep Networks for Video Classification

最新推荐文章于 2022-11-06 21:55:47 发布

哈士奇的布偶

最新推荐文章于 2022-11-06 21:55:47 发布

阅读量3.6k

点赞数 3

CC 4.0 BY-SA版权

分类专栏：论文阅读笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/bpp94_github/article/details/82347362

该博客探讨了视频分类任务，通过使用预训练的CNN（AlexNet和GoogleLeNet）提取帧级特征，结合光流特征，利用池化和LSTM进行视频级描述。研究发现，增加帧数、使用LSTM处理光流特征能显著提高性能。实验在Sports-1M和UCF-101数据集上进行，表明了所提出方法的有效性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

主要目的：

视频分类

测试数据集：

Sports-1M、UCF-101

方法概况：

使用在imageNet上预训练过的CNN（AlexNet或者GoogleLeNet）提取帧级特征，再将帧级特征和提取到的光流特征输入到池化框架或者LSTM进行训练，得到分类结果。

主要贡献：

1.提出采用CNN来得到视频级的全局描述，并且证明增大帧数能够显著提高分类性能。

2.通过在时序上共享参数，参数的数量在特征聚合和LSTM架构中都作为视频长度的函数保持不变。

3.证明了光流图像能够提升分类性能并用实验结果说明即使在光流图像本身存在大量噪声的情况下（如在Sports-1M数据集中），与LSTM结合后仍然对分类有很大帮助。

模型各部件详细介绍：
1.特征提取CNN

使用两个CNN的原因：对比哪个框架提取的特征效果好

1）AlexNet

参考文献：A. Krizhevsky, I. Sutskever, and G. E. Hinton. ImageNet classification with deep convolutional neural networks

输入：220X220

卷积层：每个卷积层由size为11X9X5的卷积核组成，每个卷积层后进行最大池化(max-pooling)和归一化（local contrast normalization），最后通过两个size为4096的全连接层（采用ReLu为激活函数），每个全连接层的dropout比率都为0.6

输出：4096X1

2）GoogleLeNet

参考文献：C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich. Going deeper with convolutions

输入：220X220

框架：多个Inception modules，多种卷积核大小，最大池化和平均池化均采用

输出：1000X1

2.聚合帧级特征以得到视频级描述（与视频帧时序无关）

采用两种方式，最后将下面两种方式和上述两种CNN分别组合进行效果对比。

优化方式：随机梯度下降（SGD）

参数：学习率10^-5，momentum系数0.9，衰减率0.0005

1）特征池化

共提出了五种池化结构，用于对比，表1是效果对比

（紫色是max-pooling层，C是CNN特征提取输出层，黄色是全连接层，橘色是softmax层，绿色是时域

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。