SER 语音情感识别-论文笔记4
《SPEECH EMOTION RECOGNITION WITH MULTISCALE AREA ATTENTION AND DATA AUGMENTATION》
2021年ICASSP
The code is released at github.com/lessonxmk/Optimized attention for SER
前言
在语音情感识别(SER)中,情感特征往往以不同形式的能量模式出现在频谱图中。SER的典型注意神经网络分类器通常在固定的注意粒度上进行优化。在本文中,在深度卷积神经网络中应用多尺度区域注意来关注不同粒度的情感特征,因此分类器可以从不同尺度的注意集合中受益。为了解决数据稀疏性问题,使用声道长度扰动(VTLP)进行数据增强,以提高分类器的泛化能力。实验在交互式情绪二元运动捕捉(IEMOCAP)数据集上进行,实现了79.34%的加权精度(WA)和77.54%的未加权精度(UA)。
一、数据集
使用IEMOCAP数据集,它包含12个小时的情感演讲由10个演员从南加州大学戏剧系。根据演员是否按照固定的剧本表演,表演分为即兴和脚本两部分。这些话语被标记为9种情绪类型:愤怒、快乐、兴奋、悲伤、沮丧、恐惧、惊讶、其他和中性状态。
在本文中使用的是即兴数据集,使用即兴数据集的准确性高于脚本数据。
本文在IEMOCAP数据集中使用了四种情绪类型的即兴数据:中性状态,兴奋,悲伤,愤怒。
二、特征
使用Librosa音频处理库提取logMel谱图作为特征。
三、模型方法
在本文中,将多尺度注意力引入基于头部融合的深度卷积神经网络模型,以提高模型的精度。此外,数据扩充还可以解决数据稀疏的问题。
基于注意力的卷积神经网络中有5个卷积层,1个注意力层,1个完全连接层。
将log Mel spectrogram作为特征输入模型后,分别从时间轴和频率轴提取纹理。
1. 多尺度区域注意
注意力机制可以看作是一种软寻址操作,它使用键值对来表示存储在内存中的内容。
在自我注意中,查询,键和值都来自同一个输入,通过计算自我注意模型可以关注输入的不同部分之间的联系。
区域注意力允许模型以多种尺度和粒度参加,并学习最合适的粒度。
2. 数据扩充
鉴于IEMOC中的训练数量有限,我们使用声道长度扰动(VTLP)作为数据增强的手段。VTLP通过干扰声道的长度在增加说话者的数量。我们使用nlpaug库来生成原始数据的另外7个副本。VTLP中所考虑的说话人正规化技术,该技术的实施旨在减少说话人之间的差异。
四、实验
1. 评估指标
使用加权准确度(WA)和未加权准确度(UA)进行评估,考虑到WA和UA在同一个模型中可能不会达到最大值,因此本文计算WA和UA的平均值作为最终评估标准。
2. 实验设定
本文将数据集化为为8:2,采用5折交叉验证,每个话语被分为2s的片段,每个片段之间有1s(在训练中)或1.6s(在测试中)有重叠。
测试仍然基于话语,来自同一话语的预测结果被平均化为该话语的预测结果。
经验表示,较大的重叠可以使话语识别结果更加稳定。
3. 实验结果
- 最大面积选择
利用VTLP分别研究了原始数据和增强数据的最优最大面积。
因此,建议使用3x3的最大面积,并使用VTLP进行数据扩充。 - 区域特征选择
通过实验研究了使用各种区域特征的性能。对于key,本文选择了最大值、平均值和样本;对于Value,本文选择了最大值、平均值和最大值。样本指的是在训练时根据平均值添加与标准偏差成比例的扰动。
可以观察到,样本最大值达到最高ACC,样本平均值达到最低ACC。在其他情况下,ACC几乎没有差异。我们推测这是因为训练中的干扰键引入了更大的随机性。
- 扩充数据量
研究VTLP下的增强数据量对SER性能的影响,随着在训练中添加更多的增强数据副本,准确性会提高。
- 消融研究
在没有注意层(仅CNN)的模型和有原始注意层(相当于1x1最大面积)的模型上进行了消融实验。表2显示了结果。可以看出,区域注意和VTLP使模型达到最高精度。这清楚地表明,与具有更多局部表征的传统CNN相比,区域注意倾向于沿着时间轴覆盖广泛的背景,这是区域注意优于CNN的原因之一。同样从表2中可以看到,当模型变得更强时,VTLP带来的改善会略微减少。这是因为VTLP通过保持标签的扰动来提高分类器的鲁棒性。当模型因注意或多尺度区域注意而变得更强时,模型本身变得更健壮,这可能会在一定程度上抵消VTLP的影响。
总结
本文将多尺度区域注意应用于SER,设计了一个基于注意的卷积神经网络,并在带有VTLP增强的IEMOCAP数据集上进行了实验,获得了79.34%的WA和77.54%的UA。其结果是最先进的。