2021-基于卷积和LSTM神经网络的视频分类时间融合方法在暴力检测中的应用

最新推荐文章于 2025-03-27 11:30:58 发布

半分热度

最新推荐文章于 2025-03-27 11:30:58 发布

阅读量1.7k

点赞数 1

分类专栏：暴恐检测文章标签：计算机视觉深度学习

本文链接：https://blog.youkuaiyun.com/qq_41956697/article/details/117255755

版权

本文探讨了一种应用于暴力检测的视频分类时间融合方法，使用早期、晚期和慢速融合策略。实验表明，慢融合通过分别处理帧并在LSTM层提取时间特征，能更好地捕获视频动态，MobileNet在模型性能上表现出色。数据集为RealLife violence detection，通过交叉验证技术进行训练和验证。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

A Temporal Fusion Approach for Video Classification with Convolutional and LSTM Neural Networks Applied to Violence Detection

通过读该文章，想起之前复现的一个代码，与本文不同的是，代码采用帧率从视频片段中截取图片，视频的帧率都是25，也就是1s提取25张图片，这样会有很多重复帧，本文采用的是1s提取2帧，代码采用的是文章中提到的早期融合（Early Fusion），把40帧串联起来送入模型中提取空间特征，这样会影响之后LSTM层提取时间特征，本文采用的是慢融合，也就是10帧分别放入CNN模型中提取空间特征后，再放入LSTM层中提取时间特征。本文对提取空间特征的模型也进行了测试，结果表明MobileN模型性能更好一些，代码采用的是ResNet152模型。接下来想尝试改一下之前复现的代码。

作者采用的数据集为RealLife violence detection，由2000个平均时长为5s的片段组成，分为暴力和非暴力。作者认为单独分析这些帧从静态图像检测暴力行为是困难的，但是当按顺序分析这些帧时，区分每一类的特征就容易一些，因此作者使用了深度学习分析帧。
作者使用了交叉验证技术，K=10，意味着数据被分为10个相等的部分，其中一部分当做验证集，其他部分用作训练集，重复10次，也就是说每个部分都

最低0.47元/天解锁文章