12、多流网络在视频动作识别中的创新应用

多流网络在视频动作识别中的创新应用

1 引言

在视频序列中的人类动作识别领域,多流网络架构正展现出巨大的潜力。它通过整合空间、时间和时空信息,为解决这一复杂问题提供了新的途径。本文将详细介绍一种基于多流卷积神经网络的动作识别方法,该方法利用不同模态的数据,结合多种融合策略,旨在提高动作识别的准确性。

2 方法概述

2.1 三流网络架构

我们提出的三流网络包含三个深度卷积神经网络(CNN),分别处理不同的模态数据:RGB帧(空间)、光流(时间)和视觉节奏(时空)。每个网络都基于ImageNet进行预训练,并使用相应的模态数据进行独立微调。时空流还额外使用Kinetics数据集进行预训练。

训练数据通过多尺度和角裁剪以及随机水平翻转进行增强。在测试阶段,每个输入图像通过角裁剪(四个角和一个中心裁剪)和水平翻转技术生成10个样本。

2.2 各流详细介绍

  • 改进的空间流
    • 与传统方法不同,我们每个视频随机采集两个帧,分别位于视频的前半部分和后半部分。这是因为场景外观可能会随时间发生显著变化,通过采集不同位置的帧,我们可以捕捉到如不同背景等外观变化,这些变化可能是某些动作的特征。
    • 在训练阶段,CNN每次接收其中一个帧。测试时,从每个测试视频中均匀采样25帧,并为每帧生成10个新样本。所有计算输出通过分数平均组合,得到流的m维向量。
  • 时间流
    • 每个视频使用10对连续的光
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值