多流网络在视频动作识别中的创新应用
1 引言
在视频序列中的人类动作识别领域,多流网络架构正展现出巨大的潜力。它通过整合空间、时间和时空信息,为解决这一复杂问题提供了新的途径。本文将详细介绍一种基于多流卷积神经网络的动作识别方法,该方法利用不同模态的数据,结合多种融合策略,旨在提高动作识别的准确性。
2 方法概述
2.1 三流网络架构
我们提出的三流网络包含三个深度卷积神经网络(CNN),分别处理不同的模态数据:RGB帧(空间)、光流(时间)和视觉节奏(时空)。每个网络都基于ImageNet进行预训练,并使用相应的模态数据进行独立微调。时空流还额外使用Kinetics数据集进行预训练。
训练数据通过多尺度和角裁剪以及随机水平翻转进行增强。在测试阶段,每个输入图像通过角裁剪(四个角和一个中心裁剪)和水平翻转技术生成10个样本。
2.2 各流详细介绍
- 改进的空间流 :
- 与传统方法不同,我们每个视频随机采集两个帧,分别位于视频的前半部分和后半部分。这是因为场景外观可能会随时间发生显著变化,通过采集不同位置的帧,我们可以捕捉到如不同背景等外观变化,这些变化可能是某些动作的特征。
- 在训练阶段,CNN每次接收其中一个帧。测试时,从每个测试视频中均匀采样25帧,并为每帧生成10个新样本。所有计算输出通过分数平均组合,得到流的m维向量。
- 时间流 :
- 每个视频使用10对连续的光
超级会员免费看
订阅专栏 解锁全文
7万+

被折叠的 条评论
为什么被折叠?



