3D Convolutional Neural Networks for Human Action Recognition

最新推荐文章于 2024-11-10 09:21:59 发布

原创

最新推荐文章于 2024-11-10 09:21:59 发布 · 2.6k 阅读

3 ·

CC 4.0 BY-SA版权

本文探讨了3D卷积神经网络（CNN）在视频中人体动作识别的应用，提出3D卷积能捕获空间和时间特征，提高了在TRECVID数据上的性能。3D CNN架构通过多通道信息处理，结合高级运动特征增强，实现对复杂环境行为的准确识别。

1 INTRODUCTION

识别现实世界中的人类行为，可以发现各种领域的应用，包括智能视频监控，客户属性和购物行为分析。然而，由于混乱的背景，遮挡和视角变化等[1]，[2]，[3]，[4]，[5]，[6]，[7]，[8]，[9]，[10] [11]，准确地识别行为是一项非常具有挑战性的任务。目前的大多数方法[12]，[13]，[14]，[15]，[16]关于视频拍摄的情况，做出了某些假设（例如，小尺度和视角变化）。然而，这种假设在现实环境中很少存在。此外，大多数方法遵循两步法，其中第一步在原始视频帧上计算特征，第二步是基于获得的特征学习分类器。在现实世界的情况下，很少知道什么特征对于手头的任务很重要，因为特征的选择是高度依赖于问题的。特别是对于人类行为的识别，不同的动作类别在外观和运动模式方面可能会显得不同。

深度学习模型[17]，[18]，[19]，[20]，[21]是一类机器，可以通过从低级别构建高级特征来学习层次特征。这种学习机器可以使用监督或无监督的方法进行训练，并且所得到的系统已被证明可以在视觉对象识别中产生竞争性能[17]，[19]，[22]，[23]，[24]，人类行为识别[25]，[26]，[27]，自然语言处理[28]，音频分类[29]，脑机交互[30]，人类跟踪[31]，图像恢复[32]，去噪[33] ，和分割任务[34]。卷积神经网络（CNN）[17]是一种深层模型，其中可训练的滤波器和局部邻域池化操作交替地应用于原始输入图像，导致越来越复杂的特征的层次结构。已经表明，当训练时有适当的正则化[35]，[36]，[37]，CNN可