2021-基于卷积和LSTM神经网络的视频分类时间融合方法在暴力检测中的应用

本文探讨了一种应用于暴力检测的视频分类时间融合方法,使用早期、晚期和慢速融合策略。实验表明,慢融合通过分别处理帧并在LSTM层提取时间特征,能更好地捕获视频动态,MobileNet在模型性能上表现出色。数据集为RealLife violence detection,通过交叉验证技术进行训练和验证。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

A Temporal Fusion Approach for Video Classification with Convolutional and LSTM Neural Networks Applied to Violence Detection

通过读该文章,想起之前复现的一个代码,与本文不同的是,代码采用帧率从视频片段中截取图片,视频的帧率都是25,也就是1s提取25张图片,这样会有很多重复帧,本文采用的是1s提取2帧,代码采用的是文章中提到的早期融合(Early Fusion),把40帧串联起来送入模型中提取空间特征,这样会影响之后LSTM层提取时间特征,本文采用的是慢融合,也就是10帧分别放入CNN模型中提取空间特征后,再放入LSTM层中提取时间特征。本文对提取空间特征的模型也进行了测试,结果表明MobileN模型性能更好一些,代码采用的是ResNet152模型。接下来想尝试改一下之前复现的代码。

作者采用的数据集为RealLife violence detection,由2000个平均时长为5s的片段组成,分为暴力和非暴力。作者认为单独分析这些帧从静态图像检测暴力行为是困难的,但是当按顺序分析这些帧时,区分每一类的特征就容易一些,因此作者使用了深度学习分析帧。
作者使用了交叉验证技术,K=10,意味着数据被分为10个相等的部分,其中一部分当做验证集,其他部分用作训练集,重复10次,也就是说每个部分都

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值