AUDIO-VISUAL KEYWORD SPOTTING BASED ON MULTIDIMENSIONAL CONVOLUTIONAL NEURAL NETWORK (2018)

基于多维卷积神经网络的视听关键字定位(2018)

摘要

音频和视频信息的融合是可靠的关键字定位(KWS)最有前途的解决方案之一,尤其是当音频被噪声破坏时。

KWS的目标是检测音频流中的特定单词,这在噪声环境下仍然是一个具有挑战性的问题。本文提出了一种基于多维卷积神经网络(MCNN)的视听神经网络来实现视听KWS。

首先,从音频和视频流中分别提取对数mel谱图和唇部区域序列,并将其作为音频-视频神经网络的输入。

然后,利用由二维CNN和三维CNN组成的基于MCNN的视听神经网络分别对对数mel谱图的时频特征和唇部区域序列的时空特征进行建模。

最后,通过决策融合将音频和视频网络的输出合并为KWS。在噪声学条件下的PKU-AV数据库上的实验结果表明,与其他最先进的方法相比,该方法具有更好的性能。

索引项——视听、关键词识别、多维神经网络、决策融合。

研究内容

本文提出了一种基于多维卷积神经网络(MCNN)的视听KWS方法。分别从音频和视频流中提取对数mel谱图和唇部区域序列作为音频和视频特征。

为了充分利用音频和视频特征中的各个维度信息,提出了一种基于MCNN的音频和视频神经网络模型,该模型由二维CNN和三维CNN组成。

二维CNN通过二维卷积运算同时学习对数谱图的时频特征。

同样,通过3D卷积运算,3D CNN被用来学习嘴唇区域序列的时间和空间特征。

最后,通过决策融合将音频和视频网络的输出结合起来,估计每个关键词的后验概率。在PKU-AV数据库上的实验结果表明,与其他常用方法相比,该方法具有更高的鲁棒性。

提出的方法&模型架构

视听神经网络 

由多维卷积神经网络(MCNN)组成的视听神经网络的结构如图1所示。MCNN包括耦合的二维和三维CNN。对于音频和视频网络,除最后一层外,每个卷积层后面都有一个整流线性单元(ReLU)激活。

3.1. 音频网络

由于KWS的实时性要求,音频网络中的层数应尽可能少,以降低其计算复杂度,同时保持令人满意的KWS性能。为此,我们设计了一个音频网络,包括两个二维卷积层、一个二维最大池层和一个完全连接(FC)层。

如图1的上半部分所示,音频特征A首先被放入内核大小为21×8的2D卷积层。

然后,使用核大小为2×3的2D max池层来减少由说话风格、通道失真等引起的时频变化池操作执行子采样以降低时频音频特征的维数。在池操作之后,使用一个内核大小为6×4的二维卷积层对音频特征进行加权

最后,使用完全连接的层将前一层的输出压缩为64个输出单元。

在这个网络中,二维卷积层和池层的步长为1。不采用零填充,因为它会引入额外的虚拟零能量系数,这些系数在局部特征提取的意义上是没有意义的。在CNN层中使用非方核函数来学习有限层的更多时域信息。

3.2. 视觉网络

按照音频网络的类似原理,视频网络由三个3D卷积层、三个3D最大池层和一个完全连接层组成。

如图1下半部分所示,首先将视觉特征V放入一个内核大小为9×3×3的3D卷积层,然后使用一个内核大小为1×3×3的3D max池层来实现空间特征池。

接下来,同样的3D卷积和最大池操作再重复一次。

然后,应用核大小为4×3×3的三维卷积层和核大小为1×3×3的三维最大池层。最后,使用完全连接的层将前一层的输出压缩为64个输出单元。

在该网络中,执行3D卷积运算以发现时空唇部特征的相关性。三维卷积层的步长为1。为了提高对移动嘴唇效果的鲁棒性,3D max pooling层中的pooling Street设置为2,以在pooling内核附近保持嘴唇运动特征。

视听融合 

数据集

我们实验中使用的数据集是我们自己收集的视听数据库,称为PKU-AV数据库

PKU-AV数据库是在一个安静的声学环境中收集的,正常光照受控,由20名受试者(12名男性和8名女性)记录。在不遮挡口腔区域的条件下,每个人能说出300个汉语普通话,用摄像机以每秒20帧的速度记录,分辨率为640×480。相应的语音音频以16 kHz的采样频率同步记录,每个采样16位。我们定义了30个日常生活中常用的关键词/短语。在每个主题中,每个关键词有5个示例句子。因此,每个关键词有100个示例句,3000个否定示例句没有总结关键词

实验

### 基于深度自适应缩放网络的微表情检测方法 在计算机视觉领域,微表情(Micro-expression, ME)是一种短暂而快速的表情变化,通常持续时间仅为几十毫秒到一秒之间。由于其短时性和细微特征,传统的手工设计特征提取方法难以有效捕捉这些动态信息。近年来,随着深度学习技术的发展,研究者提出了多种基于卷积神经网络(CNNs)的方法来解决这一挑战。 #### 深度自适应缩放网络简介 一种名为 **Deep Self-Adaptive Scaling Network (DSASN)** 的模型被提出用于微表情检测任务[^1]。该模型的核心思想在于通过多尺度分析和自适应权重调整机制,增强对不同时间和空间分辨率下微弱信号的学习能力。具体而言: 1. **多尺度特征提取模块** DSASN 集成了多个并行分支结构,每个分支负责处理特定的空间或时间尺度下的输入数据。这种架构能够捕获从局部细节到全局模式的不同层次的信息。 2. **自适应加权融合策略** 不同尺度上的特征可能具有不同的重要性,在实际应用中无法预先设定固定的权重分配方案。因此,引入了一个可训练参数化的注意力机制,自动计算各路径贡献的比例系数,并将其应用于最终决策层之前完成特征级联操作。 3. **端到端优化框架** 整体流程采用监督方式构建损失函数指导整个系统的联合调优过程。相比传统两阶段方法先单独预估再组合结果的方式更加高效稳定。 以下是实现上述功能的一个简化版伪代码表示形式: ```python import torch.nn as nn class DSASNet(nn.Module): def __init__(self): super(DSASNet, self).__init__() # 定义多尺度子网 self.scale_1 = ScaleModule() self.scale_2 = ScaleModule() ... # 自适应权重模块 self.attention_layer = AttentionLayer() def forward(self, x): features_scales = [] scales_output = [self.scale_1(x), self.scale_2(x)] # 获取各个尺度的结果 for output in scales_output: features_scales.append(output) combined_features = torch.cat(features_scales, dim=1) # 特征拼接 weighted_combined = self.attention_layer(combined_features) # 加入注意力建模 return weighted_combined ``` 此部分描述了如何利用 CNN 提取图像序列中的潜在表征以及后续分类预测逻辑等内容。 #### 数据集与实验评估指标 为了验证所提算法的有效性,研究人员选取了几种公开可用的标准数据库进行测试对比实验,其中包括 SMIC-HD 和 CASME II 等知名资源库。主要关注以下几个方面性能表现情况: - 准确率(Accuracy): 表明识别正确样本占总数量比例大小; - 召回率(Recall/F1 Score): 综合考虑正类发现能力和误报控制水平之间的平衡关系; - 平均精度(Mean Average Precision,mAP): 对检索排名列表质量进行全面衡量标准之一; 通过对以上几个维度数值统计比较可以看出,相较于其他先进解决方案来说,本项目取得了较为理想的效果提升成果。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值