暴力检测与蒙古语语音合成技术进展
暴力检测技术
研究背景与意义
暴力检测在多媒体信息处理领域是一个重要的研究方向,具有广泛的应用场景。然而,目前存在暴力检测数据集稀缺的问题。为了解决这一问题,构建了名为 VioAudio 的音频暴力数据集。
模型构建与实验结果
构建了 CNN - ConvLSTM 网络模型来检测音频暴力。该模型能够提取音频的深度特征,并对听觉通道上的时间序列进行建模。在 MediaEval 2015 数据集上的实验结果如下表所示:
| 方法 | MAP |
| — | — |
| ICL - TUM - PASSAU | 14.9% |
| TCS - ILAB | 6.38% |
| CNN - ConvLSTM | 16.47% |
| Audio - Video RUCMM | 21.6% |
| NII - UIT | 26.8% |
| CNN - ConvLSTM | 31.54% |
从结果可以看出,CNN - ConvLSTM 模型的表现优于其他团队的方法。在音视频融合方面,使用 CNN 从视频差分图和音频频谱图中提取特征,再用 ConvLSTM 对这些特征进行建模和融合,实验结果显著优于当前的最佳结果。
技术流程
graph LR
A[构建 VioAudio 数据集] --> B[构建 CNN - ConvLSTM 模型]
B --> C[提取音频深度特征]
超级会员免费看
订阅专栏 解锁全文
21

被折叠的 条评论
为什么被折叠?



