卷积神经网络与深度强化学习:原理、应用与算法策略
卷积神经网络在视频分类中的应用
视频数据与卷积网络
从卷积网络的角度来看,视频数据可视为图像数据在时空上的扩展。3维卷积神经网络在大规模视频分类中的应用已有相关探讨,早期的3维卷积神经网络视频分类方法也已被提出。所有用于图像分类的神经网络都有对应的3维版本,例如将VGG扩展到视频领域的3维卷积网络。然而,3维卷积神经网络的结果仅比单帧方法略好,因为单帧图像本身已包含大量用于分类的信息,除非运动特征对区分类别至关重要,否则添加运动信息对分类帮助不大。此外,视频分类的数据集规模往往有限,即使收集了相对大规模的数据集,在视频处理中仍显得不足,因为视频处理所需的3维卷积比图像处理中的2维卷积复杂得多。因此,将手工特征与卷积神经网络相结合通常是有益的。
有用的特征与方法
近年来,光流的概念在视频分类中得到了应用。3维卷积神经网络有助于对较短时间尺度的视频进行分类,而将卷积神经网络与循环神经网络相结合也是视频分类的常见思路。早期的结合方法已被提出,近期还有一种将循环和卷积神经网络以同质方式结合的方法,其基本思想是使卷积神经网络中的每个神经元都具有循环性。
软件资源与数据集
用于卷积神经网络深度学习的软件包有很多,如Caffe、Torch、Theano和TensorFlow等。Caffe有Python和MATLAB的扩展,Theano是基于Python的,并提供了Keras和Lasagne等高阶包作为接口。MATLAB中有一个开源的卷积神经网络实现MatConvNet。常见的用于测试卷积神经网络的数据集有MNIST和ImageNet。MNIST数据集的图像经过了居中和平滑处
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



