Learning Spatiotemporal Features with 3D Convolutional Networks论文阅读

最新推荐文章于 2022-04-16 20:32:21 发布

坎幽黑尔弥？

最新推荐文章于 2022-04-16 20:32:21 发布

阅读量238

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习文章标签： C3D

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_38469553/article/details/95201224

通过3D卷积网络学习时空特征

Abstract

有三点结论：

1.3D卷积网络比2D卷积网络要更适合于时空特征的学习。

2.相同的网络结构，在所有的层中使用3x3x3的卷积核在所有的3D卷积网络中表现最好。

3.我们的C3D特征（通过3D卷积提取的特征）应用在简单的线性分类器上比当下最好的方法在4个不同的评估基准上要更好，在另外两个评估基准上与之相当。

此外特征是很小型紧凑的：在UCF101数据集上使用仅仅10层网络达到了52.8%的准确率。并且由于卷积网络快速的预测，该方法计算非常高效。

1.Introduction

有效的视频描述符有四个属性：

（1）它需要是通用的，这样它就可以很好地表示不同类型的视频，同时具有判别力。

（2）描述符必须是可靠的，因为我们处理的视频是百万数量级的，可靠的描述符使得处理，存储，检索等任务更具可扩展性。

（3）它应当是计算高效的，现实世界中要求能每分钟处理百上千的视频。

（4）必须应用简单，例如线性分类器。

目前的针对图片的神经网络及其训练的模型不适合视频，因为缺少运动建模。我们的这项工作利用3D卷积网络在大规模的监督训练数据集和现代深层架构的背景下，实现了对不同类型视频分析任务的最佳性能。从3D卷积网络提取出来的特征encapsulate概括了描述了一个视频中与物体，场景，行为有关的信息，并且让它们在不需要针对每个任务微调的情乱下变得有用。

总结：

1.通过实验表明了3D卷积网络能同时对外观和运动建模，是良好的特征提取器。

2.经验性地发现对所有层使用3x3x3的卷积核效果最好。

3.C3D特征（通过3D卷积提取的特征）应用在简单的线性分类器上比当下最好的方法在4个不同的评估基准上要更好，在另外两个评估基准上与之相当。

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。