12、多流网络在视频动作识别中的创新应用

原创于 2025-09-21 15:33:49 发布 · 24 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#多流网络 #视频动作识别 #光流

深度学习应用前沿专栏收录该内容

18 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

多流网络在视频动作识别中的创新应用

1 引言

在视频序列中的人类动作识别领域，多流网络架构正展现出巨大的潜力。它通过整合空间、时间和时空信息，为解决这一复杂问题提供了新的途径。本文将详细介绍一种基于多流卷积神经网络的动作识别方法，该方法利用不同模态的数据，结合多种融合策略，旨在提高动作识别的准确性。

2 方法概述

2.1 三流网络架构

我们提出的三流网络包含三个深度卷积神经网络（CNN），分别处理不同的模态数据：RGB帧（空间）、光流（时间）和视觉节奏（时空）。每个网络都基于ImageNet进行预训练，并使用相应的模态数据进行独立微调。时空流还额外使用Kinetics数据集进行预训练。

训练数据通过多尺度和角裁剪以及随机水平翻转进行增强。在测试阶段，每个输入图像通过角裁剪（四个角和一个中心裁剪）和水平翻转技术生成10个样本。

2.2 各流详细介绍

改进的空间流 ：
- 与传统方法不同，我们每个视频随机采集两个帧，分别位于视频的前半部分和后半部分。这是因为场景外观可能会随时间发生显著变化，通过采集不同位置的帧，我们可以捕捉到如不同背景等外观变化，这些变化可能是某些动作的特征。
- 在训练阶段，CNN每次接收其中一个帧。测试时，从每个测试视频中均匀采样25帧，并为每帧生成10个新样本。所有计算输出通过分数平均组合，得到流的m维向量。
时间流 ：
- 每个视频使用10对连续的光

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。