融合视觉信息到听觉场景的暴力检测
在当今多媒体信息爆炸的时代,互联网上的音视频内容日益丰富,但其中部分包含暴力元素的内容并不适合广泛传播。传统的人工审核方式已难以应对海量的多媒体数据,因此利用人工智能进行暴力检测变得至关重要。目前,多数研究仅采用视觉或听觉单一模式进行暴力检测,且音频暴力检测缺乏公开数据集,同时多模态暴力检测的研究还不够深入。
研究背景与动机
随着多媒体信息技术的发展,互联网上的音视频种类不断增加。然而,一些音视频可能包含暴力内容,不适合广泛传播。由于传统的人工审核方式无法处理海量的多媒体数据,因此自动识别暴力内容变得尤为重要。目前,大多数研究使用单一的视觉或听觉模式进行暴力检测,存在缺乏暴力音频数据集和多模态研究不足的问题。
方法介绍
- CNN - ConvLSTM模型
- 特征提取问题 :传统的音频暴力检测采用分帧特征提取方法,会导致特征维度过大,造成特征冗余,降低模型准确性并增加检测时间。
- CNN与LSTM的优势 :卷积神经网络(CNN)能自适应提取特征,在图像分类和语音识别领域取得了显著成功;长短期记忆网络(LSTM)可有效处理序列信号并保留大部分信息。
- 音频信号处理 :音频信号是一维信号,难以直接通过CNN提取特征。因此,通过短时傅里叶变换将音频信号转换为二维频谱图作为网络输入。频谱图包含了音频信号的大部分信息,避免了传统音频特征提取在频域和时域的信息损失,且更符合人类大脑处理音频信息的
超级会员免费看
订阅专栏 解锁全文
835

被折叠的 条评论
为什么被折叠?



