基于复合深度神经网络的视频人类活动识别
1 引言
视频中的人类活动识别在智能视频监控、智能家居、人机交互系统和基于内容的视频检索等领域有着广泛的应用。其目标是分析和理解视频序列中的人类动作或活动,从而实现对视频数据的理解。
随着计算机视觉技术中深度神经网络的发展,基于深度神经网络的人类活动识别技术受到了广泛关注。目前,常用于人类活动识别的深度神经网络包括:
- 时空卷积神经网络
- 基于双流结构的卷积神经网络
- 基于生成模型(如自动编码器)的深度神经网络
- 受限玻尔兹曼机(RBM)
- 生成对抗网络(GANs)
- 时间一致性网络等
视频序列是三维数据(或时空数据),包含描述人类活动在二维图像平面上空间轮廓演变的静态数据流,以及描述人类活动沿时间轴运动演变的动态数据流。静态数据流由RGB图像帧组成,而动态数据流表现为沿时间序列的运动信息,通常由光流图像来描述。
2 复合深度神经网络
提出了一种复合深度神经网络(CDNN),它由静态数据流学习网络和动态数据流学习网络组成。RGB图像输入到静态数据流学习网络中生成空间表示并预测人类活动类型,RGB图像序列输入到动态数据流学习网络中生成相应的光流图像,进而生成时间表示并预测人类活动类型。
2.1 光流图像预测网络
光流图像预测网络由名为FlowNet的神经网络组成,FlowNet可分为两种网络结构:FlowNetSimple(FlowNetS)和FlowNetCorrelation(FlowNetC)。具体来说,FlowNet包括由9个卷积层组成的压缩模块和由4个反卷积层组成的扩展模块。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



