视频暴力检测与孟加拉语文本摘要的创新方法
在当今数字化时代,视频内容的暴力检测以及文本摘要技术都有着重要的应用价值。本文将介绍两种创新的方法,一种是用于视频暴力检测的VioNet模型,另一种是基于排名方法提升孟加拉语文本摘要质量的技术。
VioNet:增强型视频暴力检测方法
VioNet模型结合了3D - CNN模型和带有双向长短期记忆网络(Bi - LSTM)的视觉变换器的特征,能够同时捕捉视频中的空间和时间信息,从而构建出更强大、准确的暴力检测系统。
特征融合
在特征融合步骤中,将从视觉变换器、Bi - LSTM和3D卷积模型中提取的特征进行组合,并传递到前馈网络。形状为[16 × 300]的嵌入张量被展平,然后通过三个全连接神经网络进行处理。前两层分别有128和64个神经元,最后一层有2个神经元,用于将视频分类为暴力或非暴力类别。每层之后应用激活函数引入非线性,最后一层使用sigmoid函数。
数据集
为了评估模型性能,使用了三个不同的数据集:
- Hockey Fight :包含1000个视频,其中500个展示了曲棍球运动员的身体冲突,另外500个是非暴力的比赛画面。这些视频在实际的职业曲棍球比赛中录制,存在噪声,常导致误分类,视频时长约为4 - 5秒。
- Violent Flow :包含2000个视频片段,1000个是暴力内容,1000个是非暴力内容。整个视频档案包含实际的人群暴力画面,视频大小有很多变体,在输入模型前需要进行预处理,大多数视频时长在10 - 15秒之间。
- M
超级会员免费看
订阅专栏 解锁全文
27

被折叠的 条评论
为什么被折叠?



